Як ШІ конвертує голос у текст: огляд сервісу Buzz
Транскрибування аудіо у тексти — біль. Усі, хто хоч раз стикався з цим завданням, знають, що воно нудне, монотонне і займає багато часу. Тому краще довірити його штучному інтелекту, тим паче він це готовий робити безоплатно.
Матеріал підготовлений спеціально для читачів SPEKA автором Телеграм-каналу AI-шня
Підписуйтеся на наші соцмережі
Доступно під Windows, Linux та Mac. Може працювати навіть без інтернету, але тоді варто попередньо завантажити натреновані моделі. Звісно, що краща буде якість, то більше часу триває операція і «важить» сама модель.
Також є функція транскрибування у реальному часі. Людською мовою ви щось говорите — воно одразу розпізнає і друкує це у файл.
Я тестував сервіс на піснях і різної складності текстових аудіодоріжках. І ось що можу сказати:
- Музика майже немає впливу, але краще за можливості завантажувати тільки доріжку з розмовою, аби не було викривлення звуків.
-
Надиктовану аудіорозмову на військову тематику з безліччю термінів, завантажену з телеграм-чату, воно розпізнало з точністю приблизно 90% для української мови.
-
Узяв відео з дитячими привітаннями (бо в малечі через вік неідеальна дикція) і воно розпізнало з точністю приблизно 63% для української мови.
-
Англійську та іспанську мову розпізнає майже взагалі без помилок (звісно, тому що значно краще натренована модель).
-
Мовою терористів-сусідів нічого не тестував, але вона є. Добре, що окрім неї там ще безліч інших.
Важливо: краща якість потребує більшої кількості ресурсів або якості з'єднання. У мене на High аварійно завершувалася робота, тому всі тести я робив на Medium.
Також я вирішив порівняти якість і спробував згенерувати субтитри через різні сервіси для того дитячого відео, яке воно погано розпізнало, і зробив аналогічно, використовуючи три сервіси — VEED, MotionBox і Stenograf. Перші два — це онлайн-редактори відео, останній — спеціалізований сервіс для створення субтитрів. Жоден із них не видав результат, вищий за 40% точності.
На жаль, я не здогадався все це зібрати в одне відео, і це моя помилка, що робить мої аргументи менш залізними. Головне ж для мене було не тільки показати зручний інструмент, який може спростити життя журналістам, творцям подкастів і відео та всім, хто має завдання перетворювати записи голосу на тексти, а й довести, що безоплатний інструмент завдяки використанню добре натренованій моделі може працювати краще за схожі платні.
Єдине, про що я жалкую, що маю неідеальну дикцію і не надиктував цей матеріал без жодних правок, замість того щоб писати.