Блог AST-SoftPro

Проблемы разработки RAG для юристов

20.11.2025 10 мин чтения Студенников Алексей
Закон, юристы, RAG

RAG-система для юристов 

В начале 2025 года я начал активно работать с большими языковыми моделями, LLM. Тогда же я решил соединить в одной программе юридические познания,  опыт подготовки процессуальных и нормативных правовых документов с новейшими технологиями искусственного интеллекта.

Проблемы

Вкратце, использовать LLM в юридических целях мешает проблема не самых актуальных текстов нормативных актов, на которых обучена LLM. С момента обучения LLM может пройти несколько месяцев, а то и год. Зато они умеют хорошо работать с самим текстом.  RAG-системы решают проблему. Они подбирают актуальные на момент запроса данные для работы.

Но обычный поиск по тексту не сработает. Вы ищете "порядок подачи апелляционной жалобы по уголовному делу", но система не найдет подходящие статьи УПК РФ.  Другой пример: пользователь ищет  "расскажи про уголовную ответственность по статье 338 УК РФ", но статью 338 УК РФ система не найдет, ибо в тексте УК РФ нет фраз в таком порядке.

Вы наверняка уже поняли. Придется идти на хитрости, чтобы найти правильный документ для передачи в LLM:

  1. Использовать векторный поиск, чтобы искать близкие понятия. Но и здесь нет гарантий хорошего поиска. А ещё, его будет недостаточно. LLM  может найти схожие документы или судебную практику, но подбор документов начинается с кодексов.
  2. Из запроса нужно определять сферу регулирования: "уголовное дело" -- сфера УПК РФ или УК Рф, "арбитражное дело" -- АПК РФ. 
  3. При запросе про конкретную статью кодекса, нужно искать именно статью кодекса, а не судебную практику со ссылкой на эту статью
  4. Запрос может относиться к случаю, который урегулирован целым разделом. Это подача жалоб: кассация, апелляция, надзор и другие. И тогда в LLM нужно подавать не одну статью, а все более-менее подходящие.

Летом 2025 года я начал создавать RAG-систему для юристов. Всего этого я тогда не знал. И тогда я понял,  что как минимум часть,что должна была отвечать на запросы пользователей, работает неправильно. Получалось только настроить парсинг правовых документов для создания структурированного документа в формате JSON, то есть стороны по делу, их реквизиты. И нормально работало создание ответных документов. Это были отзывы или возражения на исковое заявление, письмо или отказ на претензию.

Иногда для решения задачи надо сделать шаг назад или в сторону

Сразу найти работающее решение не получилось. Тогда я взял паузу на 5 месяцев. Помогли мне и  наработки по другому проекту.  Моя программа на базе ИИ из другой ниши анализировала запросы пользователей. Это происходило до сбора контекста. Решив задачу в том проекте, я смог продвинуться в создании RAG для юристов.

Говоря техническим языком, главное в проекте RAG --- создание пайплайна. Это специальный конвейер. По нему движется информация от пользователя к LLM. Она --- конечная цель обработки. Здесь хороши все средства, которые повысят эффективность  и качество работы LLM. Пользователь дал запрос "как подать жалобу на приговор по уголовному делу". Для решения могут потребоваться и уточняющие вопросы, и подбор контекста для всех видов жалоб.

Подготовка и хранение документов

Для эффективного подбора релевантных документов есть 2 варианта действий. Можно их предварительно разметить. А можно научить модуль поиска и импорта парсить предоставленные документы. Без этого система не сможет ориентироваться. Причем как среди разных документов, так и внутри документа.

Неожиданно сильно ускорил работу импорт всех документов в базу данных. Это резко ускорило создание векторного хранилища. А поиск нужных частей документов стал шустрее. 

Перспективы улучшения и новые возможности 

Созданный вариант системы отвечает достаточно качественно, чтобы с ним работать. Но он недостаточно гибкий для дальнейшего развития. Вероятно, подойдет технология GraphRAG. Она может улучшить понимание запроса пользователя и качество подбора документов. Настоящий юрист оперирует статьями и кодексами не в первую очередь. Юристу нужно понять суть запроса и юридически грамотно ответить. Для этого нужно разобрать имеющиеся правоотношения из запроса пользователя. Только после этого  можно собрать список применимых правовых норм в правовых актах и подготовить контекст для передачи в LLM.

Резюме

Создание правильно работающей RAG-системы для юристов оказалось сложнее, чем сначала казалось. Специальная работа с текстами нормативных правовых актов требует применения более сложных технологий. Вероятно, это так же работает и в других областях знаний. Просто дать системе все имеющиеся документы не эффективно. Ее нужно научить действовать подобно юристу. Только тогда из популярной технологии искусственный интеллект станет реально полезным для юристов и обычных людей.  И тогда он сможет отвечать, понимая всю суть дела.

AI-Помощник