Сравнительный обзор технологий для живого диалогового AI-преподавателя: видео-аватар, голос (EN / RU), стек оркестрации и генерация мимики. Что брать, что тестировать первым, где грабли.
Продукт — это не одна модель, а конвейер: распознавание речи → LLM → озвучка → видео-аватар → мимика. Собирать на Pipecat + Tavus CVI + Deepgram Flux + Cartesia/ElevenLabs, сквозная задержка ~650 мс. Английский голос уже не требует своего железа; русский тоже тянут облака (ElevenLabs/Yandex). Для ограниченного набора эмоций аватара тяжёлая модель не нужна — хватает таблицы «эмоция→мимика». Первый шаг — снять 2 мин видео препода и параллельно прогнать HeyGen + Tavus.
Контекст: обсуждение продукта на встрече 23.06.2026 — видео-аватар реального преподавателя ведёт живой диалог с учеником (не запись). Ключевой тезис: пассивный просмотр загоняет ученика в «депрессивную» позицию, а диалог — в креативную. Дороже по токенам, но опыт несравнимо лучше.
Говорящая голова реального преподавателя, низкая латентность, кастомный аватар из видео, желательно приватность.
| Решение | Real-time | Латентность* | Цена/мин | Кастом-аватар | On-prem | Статус |
|---|---|---|---|---|---|---|
| HeyGen LiveAvatar | да (LiveKit) | не раскрыта | ~$0.10 | 2-мин видео | нет | старт #1 |
| Tavus CVI (Phoenix-4) | да | ~600 мс turn-taking | ~$0.32 | видео-реплика (лучшая) | нет | реализм |
| Anam (CARA-3) | да | 180 мс | ~$0.18 | из фото | нет | 5 сессий |
| D-ID Agents V4 | да | <500 мс | ~$5.90 | фото/видео | нет | дорого |
| MuseTalk + LiveTalking | ~57% RT на 4090 | A100 для <200мс | free (MIT) | из видео | да | on-prem |
| Hedra Live Avatars | мёртв | — | — | — | — | закрыт 15.04.26 |
| Soul Machines · EMO · SadTalker | — | — | — | — | — | исключить |
* Заявленные «100–600 мс» — это только рендер лица. Полный цикл (распознавание + LLM + озвучка + аватар) реально 1.5–3 с.
Единственный с EdTech-прод (Coursera). $0.10/мин, аватар из 2-мин видео, 20 параллельных сессий, лучшая «живость» в паузах. Рабочий LiveKit-плагин.
Самый похожий «цифровой двойник» из видео препода, turn-taking ~600 мс, встроенный анализ эмоций (Raven). Дороже и аватар готовится 3–5 дней.
Open-source (MIT), аватар на своём железе. Нужен A100 для честного real-time и 2–3 мес сборки пайплайна. Когда данные детей не должны покидать контур.
Английский для нас не менее важен русского. Фильтр — качество по каждому языку + латентность + просодия.
| Провайдер | Латентность | Английский | Русский | Клон голоса | Заметки |
|---|---|---|---|---|---|
| ElevenLabs Flash v2.5 | ~75 мс | топ | хороший | отличный | лучший универсал EN+RU |
| Cartesia Sonic-3 | ~40 мс | топ | проверять | да | король латентности |
| OpenAI Realtime (s2s) | ~300–600 мс | очень хор. | хороший | фикс. голоса | схлопывает STT+LLM+TTS |
| Gemini Live | низкая | хор. | норм | нет | альтернатива OpenAI |
| Azure (MAI-Voice-2) | ~300 мс | хор. | Lev/Masha +10 стилей | custom neural | стили в тему препода |
| Google Chirp 3 HD | стриминг | хор. | 31+ ru-голос | — | широкий охват |
| Yandex SpeechKit | низкая | средний | нативный +эмоции | да | сильнейший по русскому |
| PlayHT · Deepgram Aura · Rime | низкая | хор. | слабо/нет | разнится | EN-ориентированы |
ElevenLabs Flash — баланс; Cartesia Sonic — если критична латентность; OpenAI Realtime — для полностью разговорного цикла.
ElevenLabs Flash — универсал EN+RU; Yandex SpeechKit — нативно сильнейший русский с эмоциями (интеграция кастомная).
Одной интеграцией закрывает EN+RU лучше всех. Дефолтный выбор для двуязычного продукта.
Слой, который склеивает распознавание → LLM → озвучку → аватар в один низколатентный цикл с обработкой перебиваний.
| Платформа | Тип | Видео-аватар | Self-host | Вердикт |
|---|---|---|---|---|
| Pipecat | OSS (MIT) | нативно Tavus + HeyGen | да | основа |
| LiveKit Agents | OSS (Apache) | через кастом | да | сильная альтернатива |
| Vapi / Retell / Bland | managed | нет нативного | нет | не для нас |
Рекомендуемая архитектура под наш сценарий (real-time видео-аватар + двуязычный голос + LLM):
Важно: аватар не делает свой TTS — он рендерит аудио от внешнего TTS, поэтому выбор озвучки напрямую определяет качество голоса. Альтернатива — GPT-4o Realtime / Gemini Live (убирают STT+TTS, ~300–600 мс), но меньше контроля над качеством русского.
Как из заданной эмоции генерировать правдоподобную микромимику аватара в реальном времени.