Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Як ШІ конвертує голос у текст: огляд сервісу Buzz

Kirill Yermakov
Kirill Yermakov Автор телеграм-каналу AI-шня
9 лютого 2023 3 хвилин читання

Транскрибування аудіо у тексти — біль. Усі, хто хоч раз стикався з цим завданням, знають, що воно нудне, монотонне і займає багато часу. Тому краще довірити його штучному інтелекту, тим паче він це готовий робити безоплатно.

Матеріал підготовлений спеціально для читачів SPEKA автором Телеграм-каналу AI-шня

Buzz — це сервіс, що вміє транскрибувати чи перекладати або робити дві операції одночасно в автоматичному режимі. Працює завдяки технології Whisper від вельми шанованих та відомих OpenAI.

Сервіс Buzz Сервіс Buzz

Підписуйтеся на наші соцмережі

Доступно під Windows, Linux та Mac. Може працювати навіть без інтернету, але тоді варто попередньо завантажити натреновані моделі. Звісно, що краща буде якість, то більше часу триває операція і «важить» сама модель.

Сервіс можна також використовувати для генерації субтитрів, навіть різними мовами. Тобто берете звукову доріжку українською і «годуєте» стільки разів, скільки потрібно мов, змінюючи їх у налаштуваннях. 

Також є функція транскрибування у реальному часі. Людською мовою ви щось говорите — воно одразу розпізнає і друкує це у файл.

Я тестував сервіс на піснях і різної складності текстових аудіодоріжках. І ось що можу сказати:

  • Музика майже немає впливу, але краще за можливості завантажувати тільки доріжку з розмовою, аби не було викривлення звуків.
  • Надиктовану аудіорозмову на військову тематику з безліччю термінів, завантажену з телеграм-чату, воно розпізнало з точністю приблизно 90% для української мови.
  • Узяв відео з дитячими привітаннями (бо в малечі через вік неідеальна дикція) і воно розпізнало з точністю приблизно 63% для української мови.
  • Англійську та іспанську мову розпізнає майже взагалі без помилок (звісно, тому що значно краще натренована модель).
  • Мовою терористів-сусідів нічого не тестував, але вона є. Добре, що окрім неї там ще безліч інших.

Важливо: краща якість потребує більшої кількості ресурсів або якості з'єднання. У мене на High аварійно завершувалася робота, тому всі тести я робив на Medium.

Також я вирішив порівняти якість і спробував згенерувати субтитри через різні сервіси для того дитячого відео, яке воно погано розпізнало, і зробив аналогічно, використовуючи три сервіси — VEED, MotionBox і Stenograf. Перші два — це онлайн-редактори відео, останній — спеціалізований сервіс для створення субтитрів. Жоден із них не видав результат, вищий за 40% точності. 

На жаль, я не здогадався все це зібрати в одне відео, і це моя помилка, що робить мої аргументи менш залізними. Головне ж для мене було не тільки показати зручний інструмент, який може спростити життя журналістам, творцям подкастів і відео та всім, хто має завдання перетворювати записи голосу на тексти, а й довести, що безоплатний інструмент завдяки використанню добре натренованій моделі може працювати краще за схожі платні.

Єдине, про що я жалкую, що маю неідеальну дикцію і не надиктував цей матеріал без жодних правок, замість того щоб писати.

Підписуйтеся на наші соцмережі

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH
0
Прокоментувати
Інші матеріали

Як бізнес-спільноти сприяють розвитку вашого нетворку

Максим Олійник 2 липня 2024 11:35

Білл Гейтс нагадав про надмірне споживання електроенергії ШІ

Олеся Дерзська 28 червня 2024 16:07

Бренд, побудований на провокації та сексуалізації: історія Playboy

Артем Беседа 27 червня 2024 17:41

Як я провела Ukrainian Blockchain Week 2024

Владислав Миронович 27 червня 2024 10:00

Керівник Anthropic помістив в офісі плакат із роботом, що знищує світ

Олеся Дерзська 26 червня 2024 16:01