Блог AST-SoftPro
Мой первый опыт использования локальных моделей с форком Claude Code
Или как я почти перестал платить за облачные API, но не совсем
Все началось с того, что счета за Gemini API и OpenAI начали неприятно удивлять. Я веду несколько небольших pet-проектов, часто правлю код «на коленке», и каждый раз отправлять контекст в облако — дороговато. Плюс вопросы приватности: не хочется, чтобы прототип коммерческого фичи случайно утек куда не надо.
Поэтому, когда появилась возможность сделать свой форк Claude Code с поддержкой локальных моделей и кучей доработок по экономии токенов, я решился. Обновил железо, установил, запустил. Сегодня расскажу, что из этого вышло.
Что за зверь и на чем бегает
Сначала о главном — о форке. Исходный код Claude Code был серьезно переработан:
- Экономия контекста — вырезаны все «болтливые» системные промпты, оптимизирована передача истории, сжатие diff-ов.
- Множество провайдеров — добавили не только локальные рантаймы (llama.cpp, LM Studio), но и кучу облачных: OpenAI ChatGPT, xAI Grok, Google Gemini, Deepseek, Openrouter.ai.
- Локальные бэкенды — через llama.cpp и LM Studio можно подключить любую GGUF-модель.
Моя тестовая машина:
- Процессор: i5-12600K
- ОЗУ: 32 ГБ DDR4
- Видеокарты: две RTX 5060 Ti по 16 ГБ (причем эти две карты в отличие от двух RTX 4070 12 GB не сразу заработали нормально)
- Диски: NVMe 1 ТБ + 500 ГБ
- Windows 10
Итого VRAM — 32 ГБ. Этого хватило, чтобы запускать довольно крупные модели в квантизации NVFP4.
Была проблема с драйверами и BIOS, но в итоге удалось все почистить через DDU (Display Driver Uninstaller) и поставить подходящую версию BIOS, далеко не последную, а одну из ранних. Сейчас все работает отлично, но в моменте компьютер отказывался вообще стартовать, BIOS писал сообщение "Out of PCI-E resources".
Какие модели гонял и с какой скоростью
Тестировал на типовых задачах: написать CRUD на FastAPI, сверстать админку на React с таблицей, отрефакторить легаси-функцию. Контекст установил 128k.
Вот таблица локальных моделей в квантизации NVFP4 (о ней позже) с поддержкой MTP:
| Модель | Скорость (токен/с) | Впечатления |
|---|---|---|
| Qwen3.5-9B | ~80 | Очень шустро, код пишет базовый, но без изысков. Для скриптов и простых API — норм. |
| Qwen3.5-35B-A3B (MoE) | ~105 | Молниеносно! Качество выше, чем у 9B, но иногда странные решения. |
| Qwen3.6-27B | ~35 | Золотая середина. Скорость комфортная (чуть быстрее человеческого чтения), качество для средних проектов — отличное. |
| Gemma 4 12B | ~45 | (Спойлер: не зашла) |
| Gemma 4 31B | ~25 | (Тоже не зашла) |
Почему не прижились Gemma 4? Они невыносимо вежливы и дотошны. Пример диалога:
Я: «Сгенерируй HTML-форму логина»
Gemma 4: «Вот HTML. Как тебе? Одобряешь? Может, добавить валидацию? А цвет кнопки нравится?»
Я: «Да просто дай код».
Gemma 4: «Хорошо, я могу изменить. Скажи, что именно не так?»
Она пытается уточнять информацию на каждом шагу, пишет длинные ответы с пояснениями, задаёт встречные вопросы. Для кодинг-ассистента это смертельно: вместо того чтобы быстро сгенерировать и идти дальше, ты ждёшь простыню текста и ещё должен отвечать. Работать неудобно, пустая трата времени. Отключил.
Магия ускорения: NVFP4 и MTP
Теперь немного технических деталей, ради которых стоит заморочиться при использовании локальных моделей.
Квантизация NVFP4
Это 4-битная квантизация с плавающей точкой, оптимизированная под новые архитектуры NVIDIA (RTX 5000+). На моих двух RTX 5060 Ti она дала прирост скорости обработки промта на 50–75% по сравнению с обычным INT4 или FP8.
Как это ощущается: большой промт на 8K токенов обрабатывается вместо 3–4 секунд — за 1–2 секунды. Модель почти не теряет в адекватности.
MTP (Multi-Token Prediction)
Технология, при которой модель предсказывает не один следующий токен, а сразу несколько. На практике даёт такой же прирост скорости генерации — 50–75%. Без MTP Qwen3.6-27B выдавал ~22 токен/с, с MTP — стабильные 35 токен/с. Разница колоссальная, особенно когда нужно сгенерировать сотни строк кода.
А что по итогу? Можно ли работать локально?
Да, вполне. Для небольших и средних проектов (до 10–20 файлов, пара тысяч строк) связка форка Claude Code + Qwen3.6-27B в NVFP4 + MTP — полноценная рабочая лошадка.
- Контекст 128K позволяет загрузить весь проект.
- Скорость 35 токен/с — не мгновенно, но терпимо. Чашка чая не успевает остыть.
- Качество кода выше среднего: понимает композицию, не плодит дичь, умеет в TypeScript и асинхронность.
Но есть нюансы. Когда задача становится сложной — например, нужно отладить редкий баг в многопоточности, переписать легаси-монолит на микросервисы или встроить неочевидный алгоритм — локальная 27B модель начинает «плыть». Ответы становятся менее уверенными, появляются ошибки в логике, иногда зависает на пустом месте.
В такие моменты я переключаюсь на облачные модели прямо из этого же форка:
- Deepseek-V4-Pro — очень сильный аналитик, отличный для сложного рефакторинга.
- Модель Auto (gpt-5.5-medium, composer-2.5-fast) от Cursor — когда нужно быстро и без лишних вопросов закрыть проблему, причём с минимальной ценой.
Главные выводы после нескольких недель использования
- Локальные модели уже можно использовать для кодинга. Условия: от 32 ГБ VRAM (у меня две RTX 5060 Ti подошли идеально), модель уровня Qwen3.6-27B, обязательные NVFP4 и MTP. Без этих ускорений будет тормозно и грустно.
- Qwen3.6-27B — лучший баланс скорости и качества. Не пытайтесь ставить Gemma 4 для этой задачи — вы убьёте время на бесконечные диалоги.
- Гибридный режим — король. 80% работы делает локальная модель бесплатно (ну, кроме электричества). Оставшиеся 20% сложных задач — облачные API. Форк позволяет переключаться на лету, даже в рамках одного диалога.
- Экономия контекста в форке реально работает. То, что в оригинальном Claude уходило в 10K токенов, здесь упаковалось в 3K. Меньше токенов — быстрее локальная обработка.
Сейчас я с чистой совестью рекомендую такой подход всем, у кого есть мощная локальная карта (или две). А если пока нет — попробуйте начать с Openrouter.ai через этот же форк, а локальную модель добавите позже.
Мой стек на сегодня:
Домашний сервер на i5 + 2×RTX 5060 Ti (32GB) → форк Claude Code → Qwen3.6-27B (локально) и Deepseek-V4-Pro (облако для сложных кейсов). Счета за API упали в 5 раз. Советую попробовать.
Есть вопросы по настройке форка или оптимизациям? Пишите на почту — расскажу подробнее про конфиги llama.cpp и флаги MTP.