ИИ в «VK Видео» увеличил точность распознавания речи на 25%
ITИскусственный интеллект помог сервису «VK Видео» увеличить точность распознавания речи на 25 %. Новые алгоритмы ИИ внедрены на платформе для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте.
Нейросеть очень быстро осваивает лексику – в ее словаре тысячи новых слов, среди которых мемы, профессиональные термины, акронимы и имена собственные. В ближайшей перспективе ИИ научится разделять речь разных спикеров на отдельные реплики, что позволит делать субтитры еще качественнее.
Субтитры генерируются автоматически. Для этого ИИ задействует ML-модели, которые создают текст, расставляют в нем знаки препинания, синхронизируют его с видео. Повышению точности анализа и получения понятных субтитров способствует поэтапная обработка аудиопотока.
Прежде всего нейросетью удаляются посторонние шумы, распознается речь, которая перекладывается в текст. На втором этапе из набора распознанных слов получается хорошо читаемый текст благодаря работе моделей пунктуации и денормализации. Завершением работы становится синхронизация текста с аудиодорожкой.
На платформе «VK Видео» зафиксирован рост популярности субтитров. Только за последний месяц доля тех, кто их применяет при просмотре видео, расширилась на 28 %. И теперь ими пользуется 11 % от числа всей аудитории сервиса. Помогают субтитры людям, у кого есть проблемы со слухом. Также функция нужна, когда нет возможности включить звук при просмотре видео.
Источник: CNews