← Mars Vision
Технический ресёрч · EdTech AI

Real-time AI-аватар преподавателя

Сравнительный обзор технологий для живого диалогового AI-преподавателя: видео-аватар, голос (EN / RU), стек оркестрации и генерация мимики. Что брать, что тестировать первым, где грабли.

23 июня 2026 5 направлений Актуальность: 2025–2026 С источниками

Коротко

Продукт — это не одна модель, а конвейер: распознавание речи → LLM → озвучка → видео-аватар → мимика. Собирать на Pipecat + Tavus CVI + Deepgram Flux + Cartesia/ElevenLabs, сквозная задержка ~650 мс. Английский голос уже не требует своего железа; русский тоже тянут облака (ElevenLabs/Yandex). Для ограниченного набора эмоций аватара тяжёлая модель не нужна — хватает таблицы «эмоция→мимика». Первый шаг — снять 2 мин видео препода и параллельно прогнать HeyGen + Tavus.

Контекст: обсуждение продукта на встрече 23.06.2026 — видео-аватар реального преподавателя ведёт живой диалог с учеником (не запись). Ключевой тезис: пассивный просмотр загоняет ученика в «депрессивную» позицию, а диалог — в креативную. Дороже по токенам, но опыт несравнимо лучше.

01Видео-аватар (real-time)

Говорящая голова реального преподавателя, низкая латентность, кастомный аватар из видео, желательно приватность.

РешениеReal-timeЛатентность*Цена/минКастом-аватарOn-premСтатус
HeyGen LiveAvatarда (LiveKit)не раскрыта~$0.102-мин видеонетстарт #1
Tavus CVI (Phoenix-4)да~600 мс turn-taking~$0.32видео-реплика (лучшая)нетреализм
Anam (CARA-3)да180 мс~$0.18из фотонет5 сессий
D-ID Agents V4да<500 мс~$5.90фото/видеонетдорого
MuseTalk + LiveTalking~57% RT на 4090A100 для <200мсfree (MIT)из видеодаon-prem
Hedra Live Avatarsмёртвзакрыт 15.04.26
Soul Machines · EMO · SadTalkerисключить

* Заявленные «100–600 мс» — это только рендер лица. Полный цикл (распознавание + LLM + озвучка + аватар) реально 1.5–3 с.

Старт #1

HeyGen LiveAvatar

Единственный с EdTech-прод (Coursera). $0.10/мин, аватар из 2-мин видео, 20 параллельных сессий, лучшая «живость» в паузах. Рабочий LiveKit-плагин.

Максимум реализма

Tavus CVI

Самый похожий «цифровой двойник» из видео препода, turn-taking ~600 мс, встроенный анализ эмоций (Raven). Дороже и аватар готовится 3–5 дней.

Приватность / on-prem

MuseTalk + LiveTalking

Open-source (MIT), аватар на своём железе. Нужен A100 для честного real-time и 2–3 мес сборки пайплайна. Когда данные детей не должны покидать контур.

Hedra — выкинули. Real-time-продукт закрыли 15.04.2026 (доки → 404, LiveKit-плагин «no longer functions», PyPI-пакет «service disabled»). Прожил ~9 месяцев без объяснений — нельзя завязывать прод. Осталась только асинхронная генерация записанных видео.

02Голос (real-time TTS) — EN + RU

Английский для нас не менее важен русского. Фильтр — качество по каждому языку + латентность + просодия.

ПровайдерЛатентностьАнглийскийРусскийКлон голосаЗаметки
ElevenLabs Flash v2.5~75 мстопхорошийотличныйлучший универсал EN+RU
Cartesia Sonic-3~40 мстоппроверятьдакороль латентности
OpenAI Realtime (s2s)~300–600 мсочень хор.хорошийфикс. голосасхлопывает STT+LLM+TTS
Gemini Liveнизкаяхор.нормнетальтернатива OpenAI
Azure (MAI-Voice-2)~300 мсхор.Lev/Masha +10 стилейcustom neuralстили в тему препода
Google Chirp 3 HDстримингхор.31+ ru-голосширокий охват
Yandex SpeechKitнизкаясреднийнативный +эмоциидасильнейший по русскому
PlayHT · Deepgram Aura · Rimeнизкаяхор.слабо/нетразнитсяEN-ориентированы
Под английский

ElevenLabs / Cartesia

ElevenLabs Flash — баланс; Cartesia Sonic — если критична латентность; OpenAI Realtime — для полностью разговорного цикла.

Под русский

ElevenLabs / Yandex

ElevenLabs Flash — универсал EN+RU; Yandex SpeechKit — нативно сильнейший русский с эмоциями (интеграция кастомная).

Под оба сразу

ElevenLabs Flash v2.5

Одной интеграцией закрывает EN+RU лучше всех. Дефолтный выбор для двуязычного продукта.

«Нужно ли своё железо в 2026?» (вопрос с прошлого лета). Для английского — нет, облака дают real-time с хорошей просодией из коробки. Для русского облака тоже тянут (ElevenLabs/Yandex). Своё железо нужно только для жёсткой приватности, уникального тюнингованного голоса или экономики на больших объёмах. Прошлогодний барьер «своё железо + дотюн» для базового качества снят.

03Стек оркестрации диалога

Слой, который склеивает распознавание → LLM → озвучку → аватар в один низколатентный цикл с обработкой перебиваний.

ПлатформаТипВидео-аватарSelf-hostВердикт
PipecatOSS (MIT)нативно Tavus + HeyGenдаоснова
LiveKit AgentsOSS (Apache)через кастомдасильная альтернатива
Vapi / Retell / Blandmanagedнет нативногонетне для нас

Рекомендуемая архитектура под наш сценарий (real-time видео-аватар + двуязычный голос + LLM):

Браузер (WebRTC) │ аудио ученика ▼ Pipecat (self-hosted) │ VAD + turn-detection (Silero + SmartTurn) ▼ Deepgram Flux — распознавание (RU с апр.2026, code-switching RU/EN) ~200–260 мс ▼ LLM (напр. Claude Haiku) ~120–180 мс ▼ Cartesia / ElevenLabs — озвучка ~40–90 мс ▼ Tavus CVI Phoenix-4 — рендер аватара ~250 мс ▼ Браузер — ученик видит говорящего аватара ≈ ~650 мс e2e

Важно: аватар не делает свой TTS — он рендерит аудио от внешнего TTS, поэтому выбор озвучки напрямую определяет качество голоса. Альтернатива — GPT-4o Realtime / Gemini Live (убирают STT+TTS, ~300–600 мс), но меньше контроля над качеством русского.

04Эмоция → мимика

Как из заданной эмоции генерировать правдоподобную микромимику аватара в реальном времени.

Поправка по онтологии. Копинг-стратегии (40) и защитные механизмы (24) — это про модели личности, а не про выражение лица. Правильная основа для мимики — FACS / Action Units (≈44 единицы, каждая = мышца) + базовые эмоции Ekman. Радость = AU6+AU12, грусть = AU1+AU4+AU15 и т.д. Мост в анимацию — ARKit 52 blendshapes.

Практические подходы

Рекомендация для лёгкой быстрой модели (ограниченный набор 6–8 эмоций): двухуровнево — emotion label → AU lookup-таблица (O(1), без инференса) → AU → blendshapes linear blend (0.002 с/кадр) + сглаживание + микрошум + idle-моргание. Задержка 2–5 мс, работает на CPU. Тяжёлая модель не нужна. Если нужен аудио-драйв lip-sync с эмоцией — NVIDIA Audio2Face-3D.

05Что тестировать первым

Ключевые риски


Источники

Mars IT School · ресёрч для AI-преподавателя 23 июня 2026