Время и погода в Москве

12:56 13 октября 2024,
96.07 -1.17
105.11 -1.4

ИИ в «VK Видео» увеличил точность распознавания речи на 25%

IT 17.09.2024 18:45

Искусственный интеллект помог сервису «VK Видео» увеличить точность распознавания речи на 25 %. Новые алгоритмы ИИ внедрены на платформе для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте.

Нейросеть очень быстро осваивает лексику – в ее словаре тысячи новых слов, среди которых мемы, профессиональные термины, акронимы и имена собственные. В ближайшей перспективе ИИ научится разделять речь разных спикеров на отдельные реплики, что позволит делать субтитры еще качественнее.

Субтитры генерируются автоматически. Для этого ИИ задействует ML-модели, которые создают текст, расставляют в нем знаки препинания, синхронизируют его с видео. Повышению точности анализа и получения понятных субтитров способствует поэтапная обработка аудиопотока.

Прежде всего нейросетью удаляются посторонние шумы, распознается речь, которая перекладывается в текст. На втором этапе из набора распознанных слов получается хорошо читаемый текст благодаря работе моделей пунктуации и денормализации. Завершением работы становится синхронизация текста с аудиодорожкой.

На платформе «VK Видео» зафиксирован рост популярности субтитров. Только за последний месяц доля тех, кто их применяет при просмотре видео, расширилась на 28 %. И теперь ими пользуется 11 % от числа всей аудитории сервиса. Помогают субтитры людям, у кого есть проблемы со слухом. Также функция нужна, когда нет возможности включить звук при просмотре видео.

Источник: CNews