Загружаешь аудио или видео — получаешь точный транскрипт с разбивкой по спикерам, тайм-кодами и редактируемыми сегментами. Бэкенд: Groq Whisper (бесплатный уровень покрывает объём экосистемы); собственный стек Silero планируется для клиентов с большими объёмами.
Что умеет
- Транскрипция через Whisper-large-v3 (Groq)
- Разбивка по спикерам и экспорт тайм-лайна
- Несколько форматов входных файлов (mp3, wav, mp4, webm)
- Очередь задач BullMQ с классификацией повторных попыток
- Биллинг по токенам с лимитами
Текущий уровень автономии
Слабое звено
Расхождение схемы БД не обнаруживается в рантайме; подставной провайдер в тестах в прошлом скрывал боевые сбои.
Roadmap до L4
- L3 — проверка `prisma migrate status` при старте; убрать подставной провайдер из рабочего кода; структурированные pino-трассировки.
- L4 — резервный переход Groq → собственный Silero при сбоях; жёсткий лимит расходов на клиента; журнал восстановления; проверка выходных данных по схеме.
- L5 кандидат — выбор модели по длине файла и тарифу (когда объём перевалит 1000+ транскрипций/день).