«Точность голосового агента» — это не процент распознавания слов в лабораторных тестах. Для бизнеса точность — это доля звонков, которые агент отработал корректно: понял запрос, не сорвал диалог, довёл до целевого действия или вовремя передал человеку. Разберём, из чего она складывается и как её довести до продакшна.
Пайплайн звонка
За одну реплику агент проходит четыре этапа: ASR (речь клиента → текст), понимание (LLM решает, что ответить), TTS (текст → голос) и телефония, которая всё это передаёт. Ошибка копится по цепочке: промах на ASR искажает понимание, а задержка на любом этапе ломает живость разговора.
Распознавание: где теряются слова
Русская речь по телефону — это сжатый канал, шум, акценты и перебивания. Сильнее всего точность проседает на том, что важнее всего бизнесу: имена, адреса, номера и суммы. Что помогает:
- Barge-in — клиент может перебить агента, и тот замолкает, как живой собеседник
- Endpointing — корректное определение, что человек договорил, без обрыва на паузе
- Подсказки домена (словарь продуктов, типовых имён и форматов) — поднимают распознавание критичных сущностей
Латентность решает
Даже идеально понятый запрос бесполезен, если ответ пришёл с задержкой в три секунды — человек уже решил, что «связь повисла». Цель — отклик меньше ~1–1.5 секунд. Достигается стримингом: агент начинает синтез ответа, не дожидаясь конца обработки, а ASR работает потоково, а не по окончании реплики.
В голосе задержка важнее красоты фразы. Разговор живой, пока агент отвечает в ритме человека.
Сценарий и передача человеку
Точность — это ещё и честные границы. Агент должен уверенно вести типовой диалог, но при сомнении или нестандартном запросе — не выдумывать, а эскалировать оператору с уже собранным контекстом. Логику «пора звать человека» мы зашиваем явно: какие сигналы и фразы означают передачу.
Как мерить и доводить
Точность нельзя улучшить, не измеряя. Мы размечаем реальные звонки, считаем долю корректно отработанных диалогов по этапам и прогоняем изменения через A/B на живом трафике. Итоговая метрика — не WER модели, а результат в деньгах клиента: дозвоны, конверсия в разговор, доля доведённых до целевого действия.