AST-VoiceTalker

AI-чат speech-to-speech на локальных моделях ИИ

Веб-разработка

Описание проекта

AST-VoiceTalker - комплексная система голосового взаимодействия с искусственным интеллектом. Поддерживает распознавание речи в реальном времени, генерацию ответов через LLM и синтез речи на русском языке.

Основные возможности

Распознавание речи (STT)

  • Потоковое распознавание через T-one Conformer ASR
  • Низкая задержка (менее 300ms)
  • Оптимизация для русского языка и телефонии
  • WER 6-8% на телефонных записях

Интеграция с LLM

  • Подключение к локальным моделям через OpenAI-совместимый API
  • Потоковая генерация ответов
  • Контекстная память диалога
  • Кастомные роли и системные промты

Синтез речи (TTS)

  • Silero TTS с 4 русскими голосами
  • Транслитерация 200+ IT-терминов
  • Конвертация чисел в слова
  • Автоматическая очистка от кода и Markdown

Технологии

Backend

  • Python 3.9+ - основной язык
  • FastAPI - REST API, WebSocket, SSE
  • T-one ASR - потоковое распознавание речи (ONNX)
  • Silero TTS - синтез речи
  • SQLite - хранение настроек и ролей
  • Uvicorn - ASGI сервер

Frontend

  • Bootstrap 5 - UI компоненты
  • Web Audio API - запись с микрофона
  • WebSocket - real-time взаимодействие
  • SSE - потоковые ответы от LLM

DevOps

  • Docker - контейнеризация
  • Docker Compose - оркестрация сервисов

API

REST endpoints

  • GET /api/health - статус сервера
  • POST /api/transcribe - распознавание аудиофайла
  • POST /api/chat - текстовый чат с LLM
  • POST /api/chat/stream - потоковый чат (SSE)
  • POST /api/analyze - анализ текста
  • GET /api/llm/models - список моделей
  • GET /api/tts/speakers - список голосов
  • POST /api/tts/generate - генерация аудио

WebSocket endpoints

  • /api/ws - потоковое распознавание речи
  • /api/ws/chat - полный цикл: распознавание + LLM + TTS

Особенности реализации

Потоковая обработка аудио:

  • Чанки по 300ms (2400 семплов при 8kHz)
  • PCM 16-bit mono формат
  • CTC beam search декодирование с KenLM

Умная предобработка для TTS:

  • Словарь IT-терминов с русской транскрипцией
  • Склонение числительных
  • Удаление блоков кода перед озвучиванием

Персонализация:

  • Система ролей с кастомными промптами
  • Настройка имени и пола помощника
  • Сохранение настроек в БД

Потенциал улучшения

Краткосрочно:

  • Fine-tuning ASR на специфических данных
  • Интеграция с OpenAI GPT-4 и Claude
  • RAG (Retrieval-Augmented Generation)
  • PWA версия интерфейса

Среднесрочно:

  • Микросервисная архитектура
  • Kubernetes deployment
  • Redis кэширование
  • PostgreSQL вместо SQLite
  • VoIP интеграция (Asterisk)

Долгосрочно:

  • Мультимодальность (текст + изображения)
  • Голосовое клонирование
  • Эмоциональный TTS
  • Интеграция с CRM системами

Демонстрируемые навыки

  • Backend: Python, FastAPI, async/await, WebSocket, SSE
  • AI/ML: ASR, LLM, TTS, ONNX, Transformers
  • Frontend: HTML5, CSS3, JavaScript, Bootstrap, Web Audio API
  • DevOps: Docker, Docker Compose
  • API Design: REST, WebSocket, OpenAI-compatible API
  • Architecture: Event-driven, Real-time systems

Метрики

  • Строк кода Python: ~5000+
  • Строк кода Frontend: ~2500+
  • API endpoints: 15+
  • WebSocket endpoints: 2
  • Время отклика ASR: <300ms

Информация о проекте
Дата создания:
21.01.2026
Языки программирования
Python
Высокоуровневый язык программирования общего назначения с простым и понятным синтаксисом. Идеален для веб-разработки, анализа данных, машинного обучения и автоматизации.
JavaScript
Язык программирования для веб-разработки, поддерживает как фронтенд, так и бэкенд
Используемые технологии
Flask
Микрофреймворк для веб-разработки на Python. Простой, гибкий и расширяемый.
Веб-фреймворк
OpenAI API
API для работы с языковыми моделями OpenAI, включая GPT-3, GPT-4 и другие модели.
ИИ и ML
Docker
Платформа для разработки, доставки и запуска приложений в контейнерах.
DevOps
SQLite
Встраиваемая реляционная база данных
database
Заинтересовал проект?

Свяжитесь с нами для обсуждения деталей

Связаться
AI-Помощник