AST-VoiceTalker
Веб-разработка
Описание проекта
AST-VoiceTalker - комплексная система голосового взаимодействия с искусственным интеллектом. Поддерживает распознавание речи в реальном времени, генерацию ответов через LLM и синтез речи на русском языке.
Основные возможности
Распознавание речи (STT)
- Потоковое распознавание через T-one Conformer ASR
- Низкая задержка (менее 300ms)
- Оптимизация для русского языка и телефонии
- WER 6-8% на телефонных записях
Интеграция с LLM
- Подключение к локальным моделям через OpenAI-совместимый API
- Потоковая генерация ответов
- Контекстная память диалога
- Кастомные роли и системные промты
Синтез речи (TTS)
- Silero TTS с 4 русскими голосами
- Транслитерация 200+ IT-терминов
- Конвертация чисел в слова
- Автоматическая очистка от кода и Markdown
Технологии
Backend
- Python 3.9+ - основной язык
- FastAPI - REST API, WebSocket, SSE
- T-one ASR - потоковое распознавание речи (ONNX)
- Silero TTS - синтез речи
- SQLite - хранение настроек и ролей
- Uvicorn - ASGI сервер
Frontend
- Bootstrap 5 - UI компоненты
- Web Audio API - запись с микрофона
- WebSocket - real-time взаимодействие
- SSE - потоковые ответы от LLM
DevOps
- Docker - контейнеризация
- Docker Compose - оркестрация сервисов
API
REST endpoints
GET /api/health- статус сервераPOST /api/transcribe- распознавание аудиофайлаPOST /api/chat- текстовый чат с LLMPOST /api/chat/stream- потоковый чат (SSE)POST /api/analyze- анализ текстаGET /api/llm/models- список моделейGET /api/tts/speakers- список голосовPOST /api/tts/generate- генерация аудио
WebSocket endpoints
/api/ws- потоковое распознавание речи/api/ws/chat- полный цикл: распознавание + LLM + TTS
Особенности реализации
Потоковая обработка аудио:
- Чанки по 300ms (2400 семплов при 8kHz)
- PCM 16-bit mono формат
- CTC beam search декодирование с KenLM
Умная предобработка для TTS:
- Словарь IT-терминов с русской транскрипцией
- Склонение числительных
- Удаление блоков кода перед озвучиванием
Персонализация:
- Система ролей с кастомными промптами
- Настройка имени и пола помощника
- Сохранение настроек в БД
Потенциал улучшения
Краткосрочно:
- Fine-tuning ASR на специфических данных
- Интеграция с OpenAI GPT-4 и Claude
- RAG (Retrieval-Augmented Generation)
- PWA версия интерфейса
Среднесрочно:
- Микросервисная архитектура
- Kubernetes deployment
- Redis кэширование
- PostgreSQL вместо SQLite
- VoIP интеграция (Asterisk)
Долгосрочно:
- Мультимодальность (текст + изображения)
- Голосовое клонирование
- Эмоциональный TTS
- Интеграция с CRM системами
Демонстрируемые навыки
- Backend: Python, FastAPI, async/await, WebSocket, SSE
- AI/ML: ASR, LLM, TTS, ONNX, Transformers
- Frontend: HTML5, CSS3, JavaScript, Bootstrap, Web Audio API
- DevOps: Docker, Docker Compose
- API Design: REST, WebSocket, OpenAI-compatible API
- Architecture: Event-driven, Real-time systems
Метрики
- Строк кода Python: ~5000+
- Строк кода Frontend: ~2500+
- API endpoints: 15+
- WebSocket endpoints: 2
- Время отклика ASR: <300ms
Информация о проекте
Дата создания:
21.01.2026
21.01.2026
Языки программирования
Python
Высокоуровневый язык программирования общего назначения с простым и понятным синтаксисом. Идеален для веб-разработки, анализа данных, машинного обучения и автоматизации.
Высокоуровневый язык программирования общего назначения с простым и понятным синтаксисом. Идеален для веб-разработки, анализа данных, машинного обучения и автоматизации.
JavaScript
Язык программирования для веб-разработки, поддерживает как фронтенд, так и бэкенд
Язык программирования для веб-разработки, поддерживает как фронтенд, так и бэкенд
Используемые технологии
Flask
Микрофреймворк для веб-разработки на Python. Простой, гибкий и расширяемый.
Веб-фреймворк
Микрофреймворк для веб-разработки на Python. Простой, гибкий и расширяемый.
Веб-фреймворк
OpenAI API
API для работы с языковыми моделями OpenAI, включая GPT-3, GPT-4 и другие модели.
ИИ и ML
API для работы с языковыми моделями OpenAI, включая GPT-3, GPT-4 и другие модели.
ИИ и ML
Docker
Платформа для разработки, доставки и запуска приложений в контейнерах.
DevOps
Платформа для разработки, доставки и запуска приложений в контейнерах.
DevOps
SQLite
Встраиваемая реляционная база данных
database
Встраиваемая реляционная база данных
database