Блог AST-SoftPro

Диффузионные модели для текста — это действительно интересный и новый подход

08.06.2026 5 мин чтения Студенников Алексей

Основные характеристики и скорость

Модель DiffusionGemma 26B-A4B от Google DeepMind использует принципиально иной способ генерации текста. Вместо того чтобы генерировать слова по одному, она обрабатывает их целыми блоками (канвасами) по 256 токенов параллельно, постепенно уточняя ответ, как это делают модели для генерации изображений.

Главное преимущество — скорость: модель может генерировать более 1000 токенов в секунду на NVIDIA H100 и более 700 токенов в секунду на потребительской GeForce RTX 5090.
Доступность для запуска: Благодаря тому, что во время вывода активируется только 3.8 млрд. параметров из 26 млрд., квантифицированная версия модели может работать на GPU всего с 18 ГБ VRAM.
Ключевая особенность: Двунаправленное внимание (bi-directional attention) позволяет модели видеть весь генерируемый блок целиком, что делает её особенно хорошей для вставки кода, редактирования и решения задач, требующих "взгляда" на весь контекст.

Официальные бенчмарки: Сравнение с Gemma 4

Согласно официальной документации Unsloth, Google и NVIDIA прямо заявляют, что модель намеренно приносит в жертву часть качества ради скорости. Это наглядно демонстрируют сравнительные тесты с стандартной авторегрессионной моделью Gemma 4 26B-A4B.

Тест (Benchmark)	DiffusionGemma 26B-A4B	Gemma 4 26B-A4B
MMLU Pro	77.6%	82.6%
AIME 2026 (no tools)	69.1%	88.3%
LiveCodeBench v6	69.1%	77.1%
GPQA Diamond	73.2%	82.3%
HLE (no tools)	11.0%	8.7%

Данные из официальной документации Unsloth.

Обратите внимание, что по некоторым тестам модель даже незначительно превосходит предшественника, но в целом уступает в сложных рассуждениях.

Отзывы сообщества: Опыт реальных пользователей

В сообществе модель встретили с интересом, и многие пользователи делятся своим опытом.

Восторг от скорости и "интерактивности": Пользователи Hacker News отмечают, что DiffusionGemma меняет сам опыт взаимодействия. Она делает процесс более похожим на совместную работу, а не на ожидание ответа от "игрового автомата". Один из пользователей поделился: "Честно говоря, это было намного веселее и напомнило мне опыт программирования до эпохи массового ИИ. Это меньше похоже на игровой автомат, где ты вводишь запрос, ждешь и надеешься, что все сработает как надо".
Приятный опыт локального запуска: В одном из китайских обсуждений на форуме пользователь похвалил модель за её пригодность для локального использования в ролевых играх, отметив, что "даже на моей слабой платформе скорость оказалась приемлемой".
Критический взгляд на качество: Некоторые разработчики более скептичны. Они подчеркивают, что модель "проваливает" более глубокие тесты на дистрибутивный сдвиг тензоров, что может указывать на внутренние проблемы в механизме внимания (attention). Это подтверждает тезис о том, что модель все еще экспериментальная и может содержать "детские болезни".

Плюсы и минусы: стоит ли использовать?

Исходя из всего вышесказанного, можно выделить ключевые плюсы и минусы модели.

Плюсы (👍):
- Высокая скорость генерации: Идеально для локальных приложений, где важна интерактивность.
- Эффективность работы с контекстом: Двунаправленное внимание позволяет лучше решать задачи, требующие понимания всего фрагмента (код, таблицы, судоку).
- Низкий порог входа: Требует всего 18 ГБ VRAM, что доступно для многих энтузиастов с мощными игровыми GPU.
Минусы (👎):
- Уступает в качестве: Стандартная Gemma 4 остается лучшим выбором для задач, где критична максимальная точность и качество рассуждений.
- Экспериментальный статус: Модель может быть нестабильна в некоторых сценариях и уступать авторегрессионным аналогам в сложных бенчмарках.
- Ограниченная поддержка инструментов: Из коробки интеграция с такими решениями, как vLLM, только появляется, и для максимальной производительности могут потребоваться специфические сборки (например, llama.cpp).

Как это работает на практике: Тонкая настройка (Fine-tuning)

Интересно, что архитектура модели делает её особенно податливой для тонкой настройки под специфические задачи. Например, команда Unsloth продемонстрировала это, дообучив модель решать головоломки судоку. Если базовая модель показывала плохие результаты, то после обучения на целевом датасете она научилась решать их правильно. Это отличный пример того, как можно "дожать" из модели необходимые качества.

Другие записи блога

Все статьи

К списку статей