Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Розпізнавання та синтез української мови: як це працює?

Єгор Смоляков
Єгор Смоляков CEO проєкту UA-LAWYER
19 березня 2024 4 хвилин читання

Привіт! Мене звати Єгор Смоляков. У серії статей на тему розпізнавання (automatic speech recognition) та синтезу (speech synthesis) української мови я розповім «Спільноті» SPEKA про те, як саме створюються ці технології та у яких сферах їх можна застосувати.

Я також поясню, як створюються нейронні мережі для розпізнавання, синтезу та клонування української мови, а також хто може їх використовувати.

Спільнота розпізнавання мов

Але спочатку трохи історії. 5 липня 2024 року виповниться чотири роки від часу створення нашої спільноти, яка вже налічує понад 1200 учасників. Вона приносить користь українським розробникам, дослідникам, студентам і всім, хто цікавиться мовними технологіями.

За цей значний проміжок часу у нашій спільноті створено кілька десятків нейронних мереж. Окрім української мови, ми також залучили кримськотатарських дикторів і створили відповідну нейронну мережу для синтезу, демонстрація якої доступна за цим посиланням (деталі про це у наступній публікації). 

Нейронка для розпізнавання української мови: завантаження та демо

Хочу розпочати з останнього релізу нейронної мережі для розпізнавання української мови «w2v-bert-2.0-uk», яка має показник точності 93,45%.

Для завантаження моделі «w2v-bert-2.0-uk» перейдіть на сайт Hugging Face: https://huggingface.co/Yehor/w2v-bert-2.0-uk

На сторінці буде представлений опис з деякими технічними деталями щодо гіперпараметрів, які використовувалися під час тренування моделі, а також приклад коду, який дозволяє інтегрувати цю нейронну мережу у власний застосунок.

ВАЖЛИВО: ліцензія Apache 2.0 дозволяє безоплатне використання як для громадян, так і для бізнесу.

Приклад розпізнавання української мови Приклад розпізнавання української мови

За наведеним вище посиланням ви можете перевірити роботу цієї нейронної мережі на власному аудіозаписі.

Для цього потрібно:

  • 1
    Натиснути "Record from browser".
  • 2
    Надати дозвіл на використання мікрофона.
  • 3
    Записати аудіо.
  • 4
    Натиснути кнопку "Compute".

Після натискання кнопки «Compute» зачекайте, поки з'явиться візуалізація результатів (зелений блок) внизу форми. У ній ви побачите, як нейронна мережа розпізнала ваше аудіо.

Де може використовуватися розпізнавання української мови

Спектр використання систем розпізнавання мови широкий. Їх застосовують у різних сферах:

  • 1
    Голосові асистенти, голосове керування та введення тексту.
  • 2
    Бізнес-аналітика: виявлення інсайтів зі спілкування з клієнтами.
  • 3
    Перекладачі мови.
  • 4
    Створення субтитрів.
  • 5
    Розпізнавання інтерв'ю або судових рішень.

Деталі про нейронну мережу "w2v-bert-2.0-uk"

Нейронна мережа «w2v-bert-2.0-uk» використовує сучасну архітектуру W2v-BERT 2.0 від компанії Meta, що не потребує великої кількості даних під час навчання для початку розуміння нової мови. 

Код для інтеграції моделі можна знайти на сторінці моделі. Його можна легко інтегрувати до застосунків у короткий термін за наявності базових знань Python.

Також доступний Google Colab ноутбук для інженерів та розробників, що дозволяє швидко запустити код та провести відповідні експерименти.

Який датасет використано і яка точність у моделі

Під час тренування моделі був використаний датасет Common Voice 10. Його обсяг становить близько 53,5 годин записаного тексту, який начитали численні люди.

Точність:

  • акустична модель: 92,73% (WER: 7,27%);
  • акустична та мовна модель: 93,45% (WER: 6,55%).

Різницю між цими двома показниками точності я детально опишу у наступних публікаціях цієї серії статей, а також надам пояснення терміну WER.

Подальші кроки

У наступній статті я опишу синтез кримськотатарського й українського мовлення та розгляну його застосування у різноманітних завданнях донесення інформації.

Підписуйтесь на мене на SPEKA, на платформі X або додавайте до мережі контактів LinkedIn, щоб отримувати більше корисної інформації!

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
0
Прокоментувати
Інші матеріали

Ukrainian TechComms Days 2024 — унікальна конференція про комунікації в tech-індустрії

Ольга Топольська 17 годин тому

Призовий фонд $100 тисяч: в Україні відбувся перший ETHKyiv хакатон

Ростислав Бортман 19 годин тому

Як збільшити продуктивність команди розробників. Якісна мотивація в 2024 році

Даніелла Шихабутдінова 19 годин тому

Google допомагає постачальникам зменшити викиди завдяки новим енергетичним проєктам

Вікторія Рудзінська 1 липня 2024 08:25

Apple готується додати функції штучного інтелекту до Vision Pro

Вікторія Рудзінська 1 липня 2024 07:04