Головна Спільнота

Розпізнавання та синтез української мови: як це працює?

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

19 березня 2024 4 хвилин читання

Привіт! Мене звати Єгор Смоляков. У серії статей на тему розпізнавання (automatic speech recognition) та синтезу (speech synthesis) української мови я розповім «Спільноті» SPEKA про те, як саме створюються ці технології та у яких сферах їх можна застосувати.

Я також поясню, як створюються нейронні мережі для розпізнавання, синтезу та клонування української мови, а також хто може їх використовувати.

Спільнота розпізнавання мов

Але спочатку трохи історії. 5 липня 2024 року виповниться чотири роки від часу створення нашої спільноти, яка вже налічує понад 1200 учасників. Вона приносить користь українським розробникам, дослідникам, студентам і всім, хто цікавиться мовними технологіями.

За цей значний проміжок часу у нашій спільноті створено кілька десятків нейронних мереж. Окрім української мови, ми також залучили кримськотатарських дикторів і створили відповідну нейронну мережу для синтезу, демонстрація якої доступна за цим посиланням (деталі про це у наступній публікації).

Нейронка для розпізнавання української мови: завантаження та демо

Хочу розпочати з останнього релізу нейронної мережі для розпізнавання української мови «w2v-bert-2.0-uk», яка має показник точності 93,45%.

Для завантаження моделі «w2v-bert-2.0-uk» перейдіть на сайт Hugging Face: https://huggingface.co/Yehor/w2v-bert-2.0-uk

На сторінці буде представлений опис з деякими технічними деталями щодо гіперпараметрів, які використовувалися під час тренування моделі, а також приклад коду, який дозволяє інтегрувати цю нейронну мережу у власний застосунок.

ВАЖЛИВО: ліцензія Apache 2.0 дозволяє безоплатне використання як для громадян, так і для бізнесу.

Приклад розпізнавання української мови

За наведеним вище посиланням ви можете перевірити роботу цієї нейронної мережі на власному аудіозаписі.

Для цього потрібно:

1
Натиснути "Record from browser".
2
Надати дозвіл на використання мікрофона.
3
Записати аудіо.
4
Натиснути кнопку "Compute".

Після натискання кнопки «Compute» зачекайте, поки з'явиться візуалізація результатів (зелений блок) внизу форми. У ній ви побачите, як нейронна мережа розпізнала ваше аудіо.

Де може використовуватися розпізнавання української мови

Спектр використання систем розпізнавання мови широкий. Їх застосовують у різних сферах:

1
Голосові асистенти, голосове керування та введення тексту.
2
Бізнес-аналітика: виявлення інсайтів зі спілкування з клієнтами.
3
Перекладачі мови.
4
Створення субтитрів.
5
Розпізнавання інтерв'ю або судових рішень.

Деталі про нейронну мережу "w2v-bert-2.0-uk"

Нейронна мережа «w2v-bert-2.0-uk» використовує сучасну архітектуру W2v-BERT 2.0 від компанії Meta, що не потребує великої кількості даних під час навчання для початку розуміння нової мови.

Код для інтеграції моделі можна знайти на сторінці моделі. Його можна легко інтегрувати до застосунків у короткий термін за наявності базових знань Python.

Також доступний Google Colab ноутбук для інженерів та розробників, що дозволяє швидко запустити код та провести відповідні експерименти.

Який датасет використано і яка точність у моделі

Під час тренування моделі був використаний датасет Common Voice 10. Його обсяг становить близько 53,5 годин записаного тексту, який начитали численні люди.

Точність:

акустична модель: 92,73% (WER: 7,27%);
акустична та мовна модель: 93,45% (WER: 6,55%).

Різницю між цими двома показниками точності я детально опишу у наступних публікаціях цієї серії статей, а також надам пояснення терміну WER.

Подальші кроки

У наступній статті я опишу синтез кримськотатарського й українського мовлення та розгляну його застосування у різноманітних завданнях донесення інформації.

Підписуйтесь на мене на SPEKA, на платформі X або додавайте до мережі контактів LinkedIn, щоб отримувати більше корисної інформації!

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

Інші матеріали

Ukrainian TechComms Days 2024 — унікальна конференція про комунікації в tech-індустрії

Ольга Топольська 17 годин тому

20-21 червня відбулась перша в Україні конференція, присвячена комунікаціям в ІТ-індустрії. Ця унікальна подія зібрала понад 50 відомих спікерів та сотні учасників офлайн у Києві та онлайн з України та світу. Організатор — найбільше національне об’єднання компаній в tech-індустрії — Асоціація IT Ukraine.

Ukrainian TechComms Days 2024 —
унікальна конференція про комунікації в tech-індустрії

Призовий фонд $100 тисяч: в Україні відбувся перший ETHKyiv хакатон

Ростислав Бортман 19 годин тому

В Києві відбувся перший в історії України хакатон – ETHKyiv, який зібрав 177 учасників, включаючи партнерів та спонсорів. На триденний хакатон, який проходив 21 — 23 червня, було зареєстровано 143 хакери, зокрема 123 з них доєднались до розробки інноваційних проєктів. Учасники хакатону змагалися за призовий фонд 100 000$.

Призовий фонд $100 тисяч: в Україні відбувся перший ETHKyiv хакатон

Як збільшити продуктивність команди розробників. Якісна мотивація в 2024 році

Даніелла Шихабутдінова 19 годин тому

Привіт, я Даніелла Шихабутдінова, Chief Operations Officer Weblium — першого глобального конструктора сайтів з українським корінням.

Як збільшити продуктивність команди розробників. Якісна мотивація в 2024 році

Google допомагає постачальникам зменшити викиди завдяки новим енергетичним проєктам

Вікторія Рудзінська 1 липня 2024 08:25

Google оголосив про придбання частки у новій зеленій енергії Тайваню та про намір придбати до 300 мегават відновлюваної енергії у фонду BlackRock, щоб сприяти скороченню викидів вуглецю та викидів своїх постачальників.

Google допомагає постачальникам зменшити викиди завдяки новим енергетичним проєктам

Apple готується додати функції штучного інтелекту до Vision Pro

Вікторія Рудзінська 1 липня 2024 07:04

Незважаючи на всі свої технічні можливості, новий Vision Pro від Apple не викликав значного ажіотажу. Тож компанія планує додати функції штучного інтелекту до visionOS та оновити підхід до демонстрацій у своїх магазинах.

Apple готується додати функції штучного інтелекту до Vision Pro