Русский военный корабль, иди нах*й.
Пожертвувати на армію
×
Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Grammarly представила другу версію GEC-корпусу української мови

Катерина Колонович
Катерина Колонович Новинарка Speka.Media
9 листопада 2022 3 хвилин читання

Компанія Grammarly опублікувала у вільному доступі UA-GEC 2.0 — другу версію анотованого GEC-корпусу української мови (GEC — grammatical error correction), яка містить майже 34 000 речень. 

Команда Grammarly запустила волонтерський проєкт зі створення цього набору даних у серпні 2020 року. Першу версію корпусу UA-GEC, яка містила близько 20 000 речень, вона опублікувала у відкритому доступі у січні 2021 року та відтоді працювала над його розширенням та покращенням. Другу версію вже можна вільно завантажити на GitHub. 

UA-GEC 2.0 — друга версія анотованого GEC-корпусу української мови UA-GEC 2.0 — друга версія анотованого GEC-корпусу української мови

GEC-корпус — це сукупність текстів, авторами яких може стати кожен. Grammarly перевіряє ці тексти на наявність граматичних, стилістичних чи орфографічних помилок та викладає отримані дані у відкритий доступ. Після цього їх можна використати для тренування та оцінки програм виправлення граматичних помилок. Корпус використовують для наукового та практичного вивчення мови.

Значення проєкту

Тоді як для англійської мови існує чимало анотованих GEC-корпусів, історично для багатьох мов, включно з українською, таких даних у публічному доступі не було. Команда Grammarly поставила за мету створити такий ресурс для української мови та зробити його доступним науковій спільноті. GEC-корпус може бути корисним для досліджень у сфері обробки природної мови, а також тренування та покращення моделей машинного навчання. Що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 тис. речень, чеської — близько 47 тис. речень, а англійської —  1 млн 167 тис. речень. Корпус UA-GEC 2.0 містить 33 735 речень (500 618 токенів).

Чим відрізняється версія UA-GEC 2.0 від попередньої

  • Збільшили розмір корпусу майже вдвічі — до майже 34 000 речень; 
  • Додали більш деталізовану класифікацію помилок (зокрема розділили категорії «граматика» і «стиль» на ще 13 і 5 підкатегорій відповідно):
  • Завантажили корпус у двох варіантах — тепер його можна використовувати у двох різних завданнях: виправленні тільки граматики і виправленні граматики та стилю.

Нагадаємо, що сьогодні відзначають День української писемності та мови.

Раніше стало відомо, що вперше в історії кіберспорту найбільший кіберспортивний івент — Фінал турніру The International 2022 з Dota 2 — коментували українською

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH
0
Прокоментувати
Інші матеріали

У Києві створили інтерактивний меморіал про заборону української мови

Руслан Сорока 28 листопада 2022 20:41

Бізнес почав частіше вживати українську мову — Work.ua

Вадим Добровольський 9 листопада 2022 19:21

Фінал турніру The International 2022 з Dota 2 вперше буде доступний українською. Де дивитися

Ірина Маринюк 30 жовтня 2022 15:39

Популярність українського кіно та українського озвучування від початку війни зросла у декілька разів

Вадим Добровольський 24 жовтня 2022 22:15

Work.ua відмовляється від російськомовної версії

Катерина Колонович 24 жовтня 2022 17:39