Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Як транскрибувати текст безкоштовно за допомогою ШІ

Назар Стрільчук
Назар Стрільчук Системний адміністратор у UpWork
0
25 березня 2025 5 хвилин читання

Задовго до того, як штучний інтелект використовувався для створення відео та кодування програм, він використовувався для розуміння розмовної мови. Завдяки штучному інтелекту ви можете спілкуватися в чаті з Alexa, Siri та Google Assistant і змусити ці програми виконувати ваші завдання.

Ці самі алгоритми можуть допомогти вам створити цифрові стенограми з аудіофайлів, наприклад інтерв’ю, лекції чи просто голосові нотатки, які ви записали для себе. 

Такі відомі сервіси, як Rev і Happy Scribe, пропонують лише обмежену кількість безкоштовних транскрипцій, але ви можете виконати роботу, не сплачуючи нічого завдяки Whisper. Це механізм перетворення мовлення в текст і розроблений OpenAI.

Також поговоримо про обмеження, які існують у безкоштовному рішенні Whisper. 

Як користуватись інструментом Whisper онлайн

Перейдіть до сторінки сервісу Hugging Face, і ви зможете безкоштовно транскрибувати аудіо прямо у своєму браузері. Реєструвати обліковий запис не потрібно. У вас є можливість завантажити аудіофайл зі свого комп’ютера або записати аудіо безпосередньо в програму, якщо у вас під’єднано мікрофон.

Підписуйтеся на наші соцмережі

Щоб завантажити та обробити аудіофайл:

  • Відкрийте вкладку "Аудіофайл".
  • Виберіть "Натисніть, щоб завантажити".
  • Виберіть аудіофайл.
  • Поставте прапорець "Транскрибувати".
  • Натисніть "Надіслати".

Через кілька секунд (чи більше) ви побачите текстовий вивід у правій частині екрана. Час обробки залежить від довжини вашого аудіофайлу та завантаженості серверів Hugging Face. Оскільки це безкоштовна служба, відкрита для всіх, вона також дуже популярна, тому ви можете довго чекати, поки файли пройдуть через чергу. 

Як користуватись Whisper

В інтерфейсі ви знайдете кілька корисних інструментів. Наприклад, клацніть піктограму ручки прямо над панеллю відтворення аудіо, і ви зможете обрізати початок і кінець кліпу — це зручно, якщо вам потрібно вирізати тишу або неважливі частини аудіо.

Ви також можете перейти на вкладку «Мікрофон», щоб записати аудіо безпосередньо в інтерфейс Whisper, або перейти на вкладку YouTube і отримати транскрипцію будь-якого відео. 

Також майте на увазі, що ваше аудіо може використовуватися для подальшого навчання майбутніх моделей штучного інтелекту. Як це часто буває, політика конфіденційності OpenAI та Hugging Face не містить чітких пояснень щодо цього.

Як інсталювати Whisper на Windows

Якщо вам набридло чекати в онлайн-версії Whisper або ви просто хочете, щоб обробка транскрипції була більш локальною та конфіденційною, ви можете налаштувати цю модель штучного інтелекту на комп’ютері з Windows. Однак вам потрібна графічна карта з підтримкою CUDA (дивіться список тут) із принаймні 4 Гб відеопам’яті, щоб виконувати обробку — якщо у вас встановлено нещодавно встановлену картку Nvidia, вона, ймовірно, відповідатиме вимогам.

Цей процес набагато складніший і не дає вам особливих переваг по функціях, ніж веб-версія, тому він підходить не всім. Однак він має переваги, про які ми вже згадували, і ви не застрягнете в черзі, чекаючи обробки ваших файлів. Припускаючи, що ваш комп’ютер відповідає характеристикам, вам потрібно інсталювати Python для кодування (переконайтеся, що під час інсталяції встановлено прапорець Add python.exe to PATH), PyTorch для бібліотек машинного навчання, Chocolatey для керування програмними пакетами і FFmpeg для обробки звуку. Усі вони постачаються з інструкціями зі встановлення на відповідних вебсайтах, якщо вони вам потрібні.

Тоді ви готові встановити сам Whisper: знайдіть «cmd» у меню «Пуск» і відкрийте «Командний рядок», потім введіть «pip install -U openai-whisper» і натисніть Enter. Після завершення встановлення ви можете транскрибувати файли таким чином:

  • Відкрийте папку з аудіофайлами у Провіднику файлів.
  • Клацніть на адресному рядку вгорі, введіть «cmd» і натисніть Enter.
  • Введіть «whisper», потім пробіл, а потім назву аудіофайлу.
  • Натисніть Enter ще раз, і обробка почнеться.

Текст відображається на екрані та зберігається як серія текстових файлів у тій же папці, що й аудіо. Якщо вам потрібно конвертувати кілька файлів одночасно, просто перерахуйте їх усі після команди «whisper», відокремлюючи кожен пробілом.

Навіть якщо ви не знайомі з Python або командним рядком, у вас не повинно виникнути особливих проблем із запуском. Також за необхідності можна переглянути гайд

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
0
Icon 0

Підписуйтеся на наші соцмережі

Інші матеріали

Майбутнє рекрутингу: як штучний інтелект трансформує залучення талантів

Володимир Білик 15 червня 2025 12:47

Друга хвиля схрещування з неандертальцями відбувалася в Ірані

Taras Satov 15 червня 2025 17:56

Асистент + AI. Новий тип операційного гібриду

Юлія Сименович 21 годину тому

Founders Running Club у Києві: біг, бізнес та нові знайомства

Natali Trubnikova 15 годин тому

Важливість розвитку економіки у військовий час

Альона Кисіль 14 червня 2025 17:11