Участники вашего мероприятия могут многое упустить. С каких-то мест может быть сложно услышать, что говорят на сцене из-за проблем со звуком или из-за болтливых соседей. А для людей со слабым слухом ваше мероприятие может оказаться полностью недоступно. К счастью, есть решение этих проблем: субтитры в реальном времени. Вопрос в том, что выбрать – человека или машину?
Машинное или автоматическое транскрибирование – далеко не новое изобретение. Это одно из многих приложений технологии автоматического распознавания речи (ASR), которое существует уже более полувека. Технология ASR продвинулась за эти годы очень далеко. И с учётом последних достижений в области искусственного интеллекта (ИИ) и машинного обучения технология автоматического транскрибирования уже готова к реальной работе.
Системы автоматического транскрибирования сопоставляют звуки, составляющие человеческую речь, со словами в цифровом словаре. Когда эти звуки имеют несколько возможных совпадений – те же омонимы или омофоны, или из-за нечёткой речи или плохого звука – программа автоматического транскрибирования анализирует общий контекст и назначает каждому возможному слову вероятность, выбирая слово, которое оно считает наиболее подходящим. Этот анализ основан на алгоритмах глубокого обучения, основанных на широком спектре входных данных, которые различаются в зависимости от решения.
Тот же самый базовый процесс работает, когда вы взаимодействуете с Siri, Alexa, Cortana, Google или Алисой, только в этом случае система выводит результат в виде текста.
Большинство решений для автоматического транскрибирования, представленных сегодня на рынке, созданы для постпроизводства. Некоторые работают, когда вы загружаете аудиозапись. Службы такого рода пропустят ваш аудиофайл через программу автоматической транскрипции и отправят вам результат. Обработка обычно происходит в облаке, но также доступны локальные речевые и текстовые решения. Конечно, подобные пост-продакшн-решения не подходят для живых событий, будь то научная конференция, судебное заседание, законодательное собрание или корпоративное мероприятие.
Если вам требуется обеспечить субтитры в реальном времени, то у вас есть два варианта:
Первый вариант довольно прост. Работая на месте или дома, люди-транскриберы фиксируют то, что говорят ведущие в режиме реального времени. Сложнее понять, как отобразить текст на мониторе, планшете или другом устройстве. Прямая транскрипция – это игра, совершенно отличная от работы с предварительно записанным звуком, тут не помешает специалист с подготовкой уровня квалифицированной судебной стенографистки.
Второй вариант является немного более сложным с технической точки зрения, но он предлагает значительные преимущества по сравнению с человеческим транскрибированием. Вы можете найти решения для транскрибирования в реальном времени от таких известных компаний, как Google, Amazon и IBM.
На первый взгляд, живая транскрипция, управляемая искусственным интеллектом, ничем не отличается от человеческой транскрипции. Представьте себе человека на сцене, выступающего с основным докладом. Микрофон, в который он говорит, подключён к ноутбуку или другому устройству с облачным программным обеспечением для автоматического транскрибирования. Все, что говорит докладчик, проецируется через акустическую систему конференц-зала, а также отправляется в виде звука в облако. В облаке технология обработки естественного языка сопоставляет различные звуки со словами в цифровом словаре. Затем программа отправляет обратно текст для отображения на мониторе, чтобы любой мог за ним следить. Передаваемые данные имеют очень маленький объём, поэтому всё это происходит достаточно быстро.
Как и во многих других вещах, при выборе между транскрипцией, управляемой человеком и искусственным интеллектом, есть смысл. Да, люди все еще лучше в некоторых вещах. Мы все имели дело с машинами самообслуживания, которые настаивают на том, что в области укладки багажа есть предмет, когда его нет в поле зрения, только для того, чтобы его выручил покорный (и очень человечный) самопроверка. Но машины часто побеждают, когда речь заходит о таких основных бизнес-задачах, как стоимость и удобство.
Мы сравним человеческое и автоматическое транскрибирование по пяти ключевым критериям:
Исследования показывают, что точность транскрибирования даже у подготовленного человека составляет около 95%. Это одна ошибка на 20 транскрибированных слов. Исследователи распознавания речи стремятся к тому, чтобы уровень ошибок был не превышал этот показатель.
И Microsoft, и IBM утверждают, что достигли уровня точности, близкого к этому, благодаря своим собственным решениям преобразования речи в текст. Но транскрибирование на основе искусственного интеллекта не всегда идёт так же хорошо, как в идеальных условиях корпоративной лаборатории. Фоновый шум, плохая акустика, тяжёлые акценты и диалекты, специализированный словарный запас и низкокачественное записывающее оборудование могут снизить точность автоматического транскрибирования. В действительно неблагоприятных условиях вы можете оказаться в «салате из слов», озадачивая (или вызывая смех) любого из присутствующих в аудитории.
Люди, как правило, более успешны в транскрибировании нескольких говорящих. Машины борются с этим, что может или не может быть проблемой в зависимости от характера вашего мероприятия. Но ИИ в этом отношении уже сокращает разрыв – например, технология диаризации (распознавания говорящих) искусственного интеллекта Google, которая сделает возможной автоматическое транскрибирование панельных дискуссий и других форматов с несколькими участниками.
Благодаря нейронным сетям, которые обеспечивают технологию распознавания речи, автоматического транскрибирования улучшается с каждым днём. Некоторые действия, которые вы можете предпринять перед мероприятием, позволят точней интерпретировать конкретного говорящего, потенциально более эффективно справляясь со сложными акцентами или диалектами, чем человек-транскрибер. Кроме того, обычно имеется возможность добавлять слова и термины в словарь программы для облегчения распознавания. Эта функция неоценима для событий, в которых используется специализированный язык или жаргон – таких, например, как конференция для учёных, инженеров, программистов или врачей.
На этом возможности ИИ в плане точности не заканчиваются. Напомним, что программы для распознавания речи анализируют контекст, чтобы помочь разрешить неоднозначность использования слов. Системы для транскрибирования в реальном времени могут вносить исправления на лету, когда говорящий делает паузу (в то же время предоставляя системе больше контекста для работы). Да и люди тоже не застрахованы от смешения похоже звучащих слов – мы можем даже с большей вероятностью ошибиться, когда приходится торопиться. Разница в том, что у людей-транскриберов нет времени, чтобы исправить эти ошибки – если они не хотят отстать от говорящего.
«Живые» мероприятия и сами по себе дорогая штука. Расходы на аренду помещения, питание, проезд и проживание приглашённых докладчиков могут оставить в бюджете очень мало средств на всё остальное. Это может создать проблему, если вы хотите (или должны) обеспечить аудиторию субтитрами в реальном времени.
Ставки и модели оплаты человека-транскрибера могут очень сильно варьироваться. Одни берут плату поминутно, у других она почасовая. Транскриберы, которые умеют не отставать от живых выступления, стоят гораздо дороже, чем те, кто работает с аудиофайлами или видео. Если транскрибер не местный, то добавляются расходы на его. Оплата также может быть привязана ко всему времени, что он проведёт на мероприятии, а не только ко времени собственно транскрибирования, и в этом случае вы платите ему, даже во время обеда или перерывов в выступлениях. А если мероприятие длится долго? Правильно – сверхурочные.
Как бы то ни было, плата за транскрибирование может серьёзно возрасти, если вы полагаетесь на помощь человека, особенно если ваше мероприятие проводится в течение нескольких дней или включает в себя сеансы, которые проводятся параллельно. Когда бюджеты ограничены, организациям иногда приходится снабжать субтитрами не все выступления или сессии. Это может поставить организаторов мероприятия в неудобное положение, поскольку приглашённые докладчики могут задаться вопросом, почему их доклады не сочли важными и не обеспечили их доступность для всех.
Системы автоматического транскрибирования помогут вам избежать подобных проблем. Услуги по транскрибированию, основанные на искусственном интеллекте, по-прежнему платные, но их цена значительно ниже средней ставки оплаты для человека. Вы можете запустить программу лишь тогда, когда это требуется. А благодаря более низкой стоимости ИИ-транскрибирования, менее вероятно, что вам придётся выбирать, что снабжать субтитрами, а что нет. Потенциальная экономия будет еще более впечатляющей, если вы проводите несколько мероприятий в год.
Организовать «человеческие» субтитры в реальном времени не всегда возможно. Например, в случае срочного мероприятия может просто не хватить времени на приглашение специалиста. Также могут нарисоваться мероприятия, проводимые в то же время, что и ваша, и свободного транскрибера с нужным вам набором навыков может просто не оказаться. А что произойдёт, если нанятый вами специалист не сможет принять участие в вашем мероприятии, потому что он болен или его рейс задерживается?
Обо всё об этом не придётся беспокоиться в случае использования ИИ-транскрибирования. Машины не заняты профессиональной жизнью, как люди. Программу вы сможете запустить в любой момент. А ещё вы всегда можете проверить её перед мероприятием и оценить её точность, что не всегда можно сделать с людьми (не говоря уж о том, что это тоже стоит денег). А ещё вы сможете оперативно настроить программу для распознавания любой отраслевой слов.
Дополнительную гибкость системам автоматического транскрибирования придаёт ещё и то, что многие из них поддерживают несколько языков. Что избавляет вас от необходимости искать транскрибера с нужными знаниями.
Способность транскрибирования у людей широко варьируются (чаще всего это зависит от опыта). А производительность может варьироваться даже у одного и того же человека – например, если нанятый вами человек просто не выспался.
Всё это вызывает беспокойство. Будет ли способен человек, которого вы наняли (или его замена) выполнить поставленную задачу? Будет ли он в хорошей форме в день мероприятия? Достаточно ли он знаком со лексической спецификой мероприятия? С системами автоматического транскрибирования таких проблем не возникнет. Конечно, факторы окружающей среды, такие как фоновый шум и качество используемого вами аудио-видео оборудования, будут влиять на способность программы обеспечить правильное транскрибирование. Но, но этим можно управлять, и это можно планировать.
Стенограммы отлично подходят для тех, кто пропустил большую встречу, и удобны для всех, кто был там. Но что, если на этой встрече были обсуждены незапатентованные технологии или другие секреты компании? Ни один бизнес не хочет, чтобы посторонние лица были осведомлены о таких вещах, но этого нельзя избежать, если вы привлекаете внешнего транскрибера. Соглашения о неразглашении – это хорошо, но бдительности никогда не бывает слишком много, а утечки информации случаются постоянно.
Выбор в пользу автоматического транскрибирования снизит риски конфиденциальности. Это не обязательно устранит их полностью, поскольку многие системы отправляют аудио в облако для обработки. В любом случае, риск утечки намного ниже, что делает ИИ-транскрибирование, предпочтительным выбором с точки зрения конфиденциальности.