Блог AST-SoftPro

RAG для юристов: процесс выбора модели LLM

18.11.2025 10 мин чтения Студенников Алексей

Локальные модели против облачных моделей

Использование моделей искусственного интеллекта имеет определенные ограничения. Есть две больших группы: локальные модели, которые можно скачать и использовать на своем оборудовании (персональный компьютер или локальный сервер организации) и облачные модели, которые доступны через сеть Интернет и работают на очень мощных серверах поставщика услуг.

Когда было решено сделать систему для юристов, сразу возник вопрос: какую модель использовать? С учетом характера работы юристов с чувствительной информацией (договоры, внутренние нормативные акты, исковые заявления, отзывы/возражения, правовые заключения) выбор пал на локальные модели. Облачные были исключены из выбора, поскольку при их использовании идет отправка всей информации на сервер сторонней организации. При использовании локальных моделей вся обработка происходит внутри организации.

Что такое RAG

Генерация, дополненная поиском (Retrieval-Augmented Generation, RAG) — это подход, при котором генерация ответа большой языковой модели (LLM) осуществляется на основе данных, полученных в результате поиска во внешних источниках (файлы, базы данных, Интернет и другие источники).

Представьте, что есть очень умный помощник (большая языковая модель, LLM), который умеет отвечать на вопросы и писать тексты. Но у этого помощника есть проблема: он знает не все.

RAG - это способ сделать этого помощника еще лучше. Как? Мы даем ему возможность "поискать" нужную информацию в интернете, базах данных или других источниках перед тем, как отвечать на вопрос.

Вот как это работает:

Поиск: Когда ты задаешь вопрос, система сначала ищет подходящие документы или фрагменты информации по этому вопросу.
Подсказка: Найденная информация вместе с инструкциями (подсказками) передается умному помощнику. Инструкции говорят ему, как использовать эту информацию для ответа.
Ответ: Помощник использует найденную информацию и инструкции, чтобы составить ответ. Он может даже указать, откуда взял информацию, что делает его ответ более понятным и надежным.

Зачем это нужно?

Больше знаний: RAG позволяет помощнику использовать гораздо больше информации, чем он знал раньше.
Актуальность: Он всегда имеет доступ к самой свежей информации.
Точность: Помогает избежать ошибок и "галлюцинаций" (когда модель придумывает информацию).
Прозрачность: Ты можешь проверить, откуда взята информация в ответе.

В общем, RAG - это как дать умному помощнику доступ к огромной библиотеке и научить его правильно использовать эту информацию для решения задач.

Какие функции работы с текстом были запланированы при работе с RAG

Вопрос к системе, но для получения актуальной информации в качестве контекста на вход LLM подбирались части актуальных текстов кодексов, законов, документов пользователя
Создание ответного документа: для искового заявления это отзыв/возражения, для претензии это ответ на нее и так далее
Извлечение из предоставленного текста структурированной информации для заполнения базы данных: стороны по делу, их реквизиты, суд, его адрес, договор, документы в приложениях.

Что выбрать из локальных моделей?

Выбор локальных моделей в формате GGUF, которые легко запустить как через LM Studio, так и непосредственно из кода Python, достаточно велик:

Qwen 3
Mistral
GigaChat
YandexGPT
Gemma 3
oss-gpt
Deepseek
T-Pro 2.0
Многие другие

Помимо разных семейств, есть разные варианты с количеством активных параметров от 500 тысяч до десятков сотен миллиардов. Чем больше параметров, тем выше качество ответа, дольше генерация и требования к оборудованию резко возрастают. Для использования на локальном компьютере целесообразно использовать модели с 3b/4b/7b/8b/12b/14b, то есть от 3 до 14 миллиардов параметров. Для этих моделей еще может хватить оперативной памяти компьютера пользователя или видеопамяти графического ускорителя GPU.

Некоторые предварительные результаты тестов

Скажу сразу, что в пока был сделан в пользу Gemma 4b, далее распишем почему такой выбор был сделан.

Во-первых, размер модели. Для получения адекватного времени отклика в десятки секунд и не более 1-2 минут подошли только модели до 4b. Для более старших моделей обязательно требуется мощный графический ускоритель, и даже на нем старшие модели типа 27b/30b очень долго генерируют ответы. В целом, можно использовать и такие модели, но это уже на усмотрение конечного пользователя. Для некоторых моделей нет большого выбора, например, T-Pro 2.0 существует только 30b, а YandexGPT 8b.

Во-вторых, на младших моделях самые качественные ответы удалось получить от модели Gemma4 4b. Модели Qwen 3 тоже в целом неплохи, но на младших моделях, при тех же самых параметрах часто начинались самоповторы ответов, которых не было на Gemma 4b.

В-третьих, скорость работы модели Gemma 4b на настрольном компьютере со средними характеристиками (CPU Intel 12600k, RAM 32GB DDR4, GPU RTX 4070 12GB) была вполне комфортной для работы с юридическим вопросами и документами.

В-четвертых, некоторые модели хуже работают с обработкой текстов на юридическую тематику, временами, генерируют откровенный бред, что явно недопустимо в работе юридической системы.

В-пятых, даже при использовании RAG, чем новее модель, тем больше она "помнит" свежих данных на юридическую тематику, чем новее данные, использованные при обучении, тем выше качество ответов.

Новые модели постоянно добавляются

На момент начала тестирования (весна/лето 2025 года) некоторые модели еще не были доступны. В общем доступе регулярно добавляются новые модели типа Qwen 3, Gemma3, oss-gpt и другие. По мере обновления мощных облачных моделей, разработчики выпускают их упрощенные локальные варианты, что однозначно на пользу конечному пользователю. Скорее всего, со временем, выбор оптимальной модели изменится, надо постоянно держать руку на пульсе и использовать новейшие разработки.

Краткие выводы

Разные модели могут показать лучше или хуже результаты в зависимости от задачи. Для каждой конкретной задачи стоит подбирать наиболее подходящую модель как по семейству, так и по количеству параметров.
Кроме использования RAG можно при наличии достаточных ресурсов обучить свою модель или донастроить уже готовую. Но такая опция доступна лишь очень крупным организациям с огромными затратами на оборудование.
Локальные модели для работы с юридической информацией наиболее оптимальный выбор: либо на своем ПК, либо на сервере организации.
Постоянно надо мониторить появление новых моделей, поскольку они могут существенно улучшить результаты без серьезной доработки, хотя в некоторых случаях определенная донастройка все-таки может понадобиться.

Другие записи блога

Все статьи

К списку статей