Подписывайтесь:

Блог AST-SoftPro

Мой первый опыт использования локальных моделей с форком Claude Code

13.06.2026 8 мин чтения

Или как я почти перестал платить за облачные API, но не совсем

Все началось с того, что счета за Gemini API и OpenAI начали неприятно удивлять. Я веду несколько небольших pet-проектов, часто правлю код «на коленке», и каждый раз отправлять контекст в облако — дороговато. Плюс вопросы приватности: не хочется, чтобы прототип коммерческого фичи случайно утек куда не надо.

Поэтому, когда появилась возможность сделать свой форк Claude Code с поддержкой локальных моделей и кучей доработок по экономии токенов, я решился. Обновил железо, установил, запустил. Сегодня расскажу, что из этого вышло.

Что за зверь и на чем бегает

Сначала о главном — о форке. Исходный код Claude Code был серьезно переработан:

  • Экономия контекста — вырезаны все «болтливые» системные промпты, оптимизирована передача истории, сжатие diff-ов.
  • Множество провайдеров — добавили не только локальные рантаймы (llama.cpp, LM Studio), но и кучу облачных: OpenAI ChatGPT, xAI Grok, Google Gemini, Deepseek, Openrouter.ai.
  • Локальные бэкенды — через llama.cpp и LM Studio можно подключить любую GGUF-модель.

Моя тестовая машина:

  • Процессор: i5-12600K
  • ОЗУ: 32 ГБ DDR4
  • Видеокарты: две RTX 5060 Ti по 16 ГБ (причем эти две карты в отличие от двух RTX 4070 12 GB не сразу заработали нормально)
  • Диски: NVMe 1 ТБ + 500 ГБ
  • Windows 10

Итого VRAM — 32 ГБ. Этого хватило, чтобы запускать довольно крупные модели в квантизации NVFP4.

Была проблема с драйверами и BIOS, но в итоге удалось все почистить через DDU (Display Driver Uninstaller) и поставить подходящую версию BIOS, далеко не последную, а одну из ранних. Сейчас все работает отлично, но в моменте компьютер отказывался вообще стартовать, BIOS писал сообщение "Out of PCI-E resources".

Какие модели гонял и с какой скоростью

Тестировал на типовых задачах: написать CRUD на FastAPI, сверстать админку на React с таблицей, отрефакторить легаси-функцию. Контекст установил 128k.

Вот таблица локальных моделей в квантизации NVFP4 (о ней позже) с поддержкой MTP:

Модель Скорость (токен/с) Впечатления
Qwen3.5-9B ~80 Очень шустро, код пишет базовый, но без изысков. Для скриптов и простых API — норм.
Qwen3.5-35B-A3B (MoE) ~105 Молниеносно! Качество выше, чем у 9B, но иногда странные решения.
Qwen3.6-27B ~35 Золотая середина. Скорость комфортная (чуть быстрее человеческого чтения), качество для средних проектов — отличное.
Gemma 4 12B ~45 (Спойлер: не зашла)
Gemma 4 31B ~25 (Тоже не зашла)

Почему не прижились Gemma 4? Они невыносимо вежливы и дотошны. Пример диалога:

Я: «Сгенерируй HTML-форму логина»
Gemma 4: «Вот HTML. Как тебе? Одобряешь? Может, добавить валидацию? А цвет кнопки нравится?»
Я: «Да просто дай код».
Gemma 4: «Хорошо, я могу изменить. Скажи, что именно не так?»

Она пытается уточнять информацию на каждом шагу, пишет длинные ответы с пояснениями, задаёт встречные вопросы. Для кодинг-ассистента это смертельно: вместо того чтобы быстро сгенерировать и идти дальше, ты ждёшь простыню текста и ещё должен отвечать. Работать неудобно, пустая трата времени. Отключил.

Магия ускорения: NVFP4 и MTP

Теперь немного технических деталей, ради которых стоит заморочиться при использовании локальных моделей.

Квантизация NVFP4

Это 4-битная квантизация с плавающей точкой, оптимизированная под новые архитектуры NVIDIA (RTX 5000+). На моих двух RTX 5060 Ti она дала прирост скорости обработки промта на 50–75% по сравнению с обычным INT4 или FP8.

Как это ощущается: большой промт на 8K токенов обрабатывается вместо 3–4 секунд — за 1–2 секунды. Модель почти не теряет в адекватности.

MTP (Multi-Token Prediction)

Технология, при которой модель предсказывает не один следующий токен, а сразу несколько. На практике даёт такой же прирост скорости генерации — 50–75%. Без MTP Qwen3.6-27B выдавал ~22 токен/с, с MTP — стабильные 35 токен/с. Разница колоссальная, особенно когда нужно сгенерировать сотни строк кода.

А что по итогу? Можно ли работать локально?

Да, вполне. Для небольших и средних проектов (до 10–20 файлов, пара тысяч строк) связка форка Claude Code + Qwen3.6-27B в NVFP4 + MTP — полноценная рабочая лошадка.

  • Контекст 128K позволяет загрузить весь проект.
  • Скорость 35 токен/с — не мгновенно, но терпимо. Чашка чая не успевает остыть.
  • Качество кода выше среднего: понимает композицию, не плодит дичь, умеет в TypeScript и асинхронность.

Но есть нюансы. Когда задача становится сложной — например, нужно отладить редкий баг в многопоточности, переписать легаси-монолит на микросервисы или встроить неочевидный алгоритм — локальная 27B модель начинает «плыть». Ответы становятся менее уверенными, появляются ошибки в логике, иногда зависает на пустом месте.

В такие моменты я переключаюсь на облачные модели прямо из этого же форка:

  • Deepseek-V4-Pro — очень сильный аналитик, отличный для сложного рефакторинга.
  • Модель Auto (gpt-5.5-medium, composer-2.5-fast) от Cursor — когда нужно быстро и без лишних вопросов закрыть проблему, причём с минимальной ценой.

Главные выводы после нескольких недель использования

  1. Локальные модели уже можно использовать для кодинга. Условия: от 32 ГБ VRAM (у меня две RTX 5060 Ti подошли идеально), модель уровня Qwen3.6-27B, обязательные NVFP4 и MTP. Без этих ускорений будет тормозно и грустно.
  2. Qwen3.6-27B — лучший баланс скорости и качества. Не пытайтесь ставить Gemma 4 для этой задачи — вы убьёте время на бесконечные диалоги.
  3. Гибридный режим — король. 80% работы делает локальная модель бесплатно (ну, кроме электричества). Оставшиеся 20% сложных задач — облачные API. Форк позволяет переключаться на лету, даже в рамках одного диалога.
  4. Экономия контекста в форке реально работает. То, что в оригинальном Claude уходило в 10K токенов, здесь упаковалось в 3K. Меньше токенов — быстрее локальная обработка.

Сейчас я с чистой совестью рекомендую такой подход всем, у кого есть мощная локальная карта (или две). А если пока нет — попробуйте начать с Openrouter.ai через этот же форк, а локальную модель добавите позже.

Мой стек на сегодня:
Домашний сервер на i5 + 2×RTX 5060 Ti (32GB) → форк Claude Code → Qwen3.6-27B (локально) и Deepseek-V4-Pro (облако для сложных кейсов). Счета за API упали в 5 раз. Советую попробовать.

Есть вопросы по настройке форка или оптимизациям? Пишите на почту — расскажу подробнее про конфиги llama.cpp и флаги MTP.

AI-Помощник