Як ШІ конвертує голос у текст: огляд сервісу Buzz
Транскрибування аудіо у тексти — біль. Усі, хто хоч раз стикався з цим завданням, знають, що воно нудне, монотонне і займає багато часу. Тому краще довірити його штучному інтелекту, тим паче він це готовий робити безоплатно.
Матеріал підготовлений спеціально для читачів SPEKA автором Телеграм-каналу AI-шня

Доступно під Windows, Linux та Mac. Може працювати навіть без інтернету, але тоді варто попередньо завантажити натреновані моделі. Звісно, що краща буде якість, то більше часу триває операція і «важить» сама модель.
Також є функція транскрибування у реальному часі. Людською мовою ви щось говорите — воно одразу розпізнає і друкує це у файл.
Я тестував сервіс на піснях і різної складності текстових аудіодоріжках. І ось що можу сказати:
- Музика майже немає впливу, але краще за можливості завантажувати тільки доріжку з розмовою, аби не було викривлення звуків.
-
Надиктовану аудіорозмову на військову тематику з безліччю термінів, завантажену з телеграм-чату, воно розпізнало з точністю приблизно 90% для української мови.
-
Узяв відео з дитячими привітаннями (бо в малечі через вік неідеальна дикція) і воно розпізнало з точністю приблизно 63% для української мови.
-
Англійську та іспанську мову розпізнає майже взагалі без помилок (звісно, тому що значно краще натренована модель).
-
Мовою терористів-сусідів нічого не тестував, але вона є. Добре, що окрім неї там ще безліч інших.
Важливо: краща якість потребує більшої кількості ресурсів або якості з'єднання. У мене на High аварійно завершувалася робота, тому всі тести я робив на Medium.
Також я вирішив порівняти якість і спробував згенерувати субтитри через різні сервіси для того дитячого відео, яке воно погано розпізнало, і зробив аналогічно, використовуючи три сервіси — VEED, MotionBox і Stenograf. Перші два — це онлайн-редактори відео, останній — спеціалізований сервіс для створення субтитрів. Жоден із них не видав результат, вищий за 40% точності.
На жаль, я не здогадався все це зібрати в одне відео, і це моя помилка, що робить мої аргументи менш залізними. Головне ж для мене було не тільки показати зручний інструмент, який може спростити життя журналістам, творцям подкастів і відео та всім, хто має завдання перетворювати записи голосу на тексти, а й довести, що безоплатний інструмент завдяки використанню добре натренованій моделі може працювати краще за схожі платні.
Єдине, про що я жалкую, що маю неідеальну дикцію і не надиктував цей матеріал без жодних правок, замість того щоб писати.