Специалистов-транскриберов, которые могут работать в режиме реального времени, не хватает, и стоят они очень недёшево. Поэтому для многих организаций услуги преобразования речи в текст в реальном времени всё ещё недоступны. Может ли сегодняшняя технология распознавания речи помочь удовлетворить спрос на точное и доступное транскрибирование в реальном времени? Ответ «Да», и у нас есть цифры, которые это подтверждают.
Ранее в этом году мы сравнили три ведущих интерфейса программирования приложений (API) для распознавания речи – Amazon Transcribe, Google Cloud Speech-to-Text и IBM Watson Speech-to-Text – с людьми-транскриберами по ряду критериев:
• Точность: скорость, с которой программа делает ошибки при расшифровке произнесённых слов, измеряется как частота ошибок в словах.
• Задержка первой гипотезы: среднее время между произнесением слова и первым выводом текста.
• Задержка стабильной гипотезы: среднее время между произнесением слова и выводом правильного текста.
• Стоимость: плата за использование соответствующей услуги.
Мы предоставили каждому API более 1500 примеров фраз из набора тестов, предоставленного компанией Texas Instruments и Массачусетским технологическим институтом. Мы сравнили результаты с эталонными расшифровками этих фраз, включёнными в набор тестов, и измерили задержку. В конце концов, мы решили не корректировать скорость транскрипции с учётом времени приёма-передачи, поскольку оно составляло относительно небольшую часть общей задержки в каждом случае.
Чтобы установить базовый уровень производительности человека-транскрибера, мы собрали и обобщили результаты из множества академических источников. Здесь под «транскрибером» мы подразумеваем специалиста, который расшифровывает речь с помощью клавиатуры компьютера, а не стенографиста, который мог бы печатать на более высокой скорости с помощью стенографа. На рынке корпоративных услуг, образования и специальных мероприятий, как правило, используют транскриберов, поскольку ставки стенографистов значительно выше.
Важно отметить, что эти результаты отражают состояние каждого API на январь 2020 года, когда проводилось тестирование. Если бы мы провели те же тесты сегодня, то производительность могла бы быть выше, поскольку технологии распознавания речи как часть машинного обучения непрерывно совершенствуется.
Точность | Задержка первой гипотезы |
Задержка стабильной гипотезы |
Стоимость, $ в час |
|
---|---|---|---|---|
Человек | 0.04–0.09 | – | 4.2 | 60–200 |
Amazon | 0.088 | 2.956 | 3.034 | 1.44 |
0.085 | 0.576 | 0.738 | 1.44 | |
Google (Enhanced) | 0.060 | 0.605 | 0.761 | 2.16 |
IBM | 0.104 | 1.329 | 1.434 | 1.20 |
Каждый API обеспечивает уровень точности и задержки, вполне достаточный для работы в условиях обычных мероприятий. Задержка API Amazon была немного выше, чем у движков IBM и Google, но в целом все три сопоставимы по точности и стоимости. Мы также протестировали каждый движок на устойчивость к шуму (точность транскрибирования при наличии шума) и обнаружили, что качество аудио-оборудования, размещение микрофона и другие технические факторы имеют очень важное значение для повышения производительности.
Что все это означает на практике? Эти API-интерфейсы готовы к использованию в сценариях живых событий, но как организации могут их использовать? Для этого потребуется разработка промежуточной системы автоматического распознавания речи для захвата и потоковой передачи аудиоданных в облако; платформу цифровых подписей и систему для приёма, визуализации и отображения результата на экране; веб-портал или мобильное приложение для пользователей, сидящих далеко от мониторов или имеющих нарушения зрения; и так далее.
Другой, менее обременительный вариант – использовать готовое специальное устройство автоматического транскрибирования.