Meta розробила ШІ-модель, яка може перекладати та транскрибувати на 100 мов
Компанія Meta створила модель штучного інтелекту SeamlessM4T, яка може перекладати та транскрибувати близько 100 мов у форматі тексту та аудіо. Вона розповсюджується з відкритим кодом, пише TechCrunch.
Для створення SeamlessM4T Meta зібрала десятки мільярдів речень загальнодоступного тексту та 4 млн годин аудіо, які лягли в основу набору даних під назвою SeamlessAlign.
Дослідники зв’язали 443 тис. годин мовлення з текстами та створили 29 тис. годин пар «мовлення до мовлення», які навчили модель транскрибувати аудіо в текст, робити переклад та перетворювати текст на мовлення.
За даними Meta, у внутрішньому тесті SeamlessM4T краще порається з фоновими шумами та «варіаціями диктора» в задачах перетворення мови в текст порівняно з найсучаснішими аналогами. Багате поєднання даних у навчальному датасеті надає моделі перевагу, вважають дослідники.
Підписуйтеся на наші соцмережі
SeamlessM4T може бути упередженою та токсичною
Проте модель має упередження, властиві більшості сучасних алгоритмів ШІ. За даними розробників, SeamlessM4T «надмірно узагальнює форми чоловічого роду при перекладі з нейтральних термінів» та краще працює при перекладі з іменників чоловічого роду для більшості мов.
Ба більше, за відсутності гендерної інформації модель віддає перевагу перекладу в чоловічому роді приблизно в 10% випадків.
Також у деяких мовах, таких як бенгальська та киргизька, SeamlessM4T може бути токсичною. Загалом, модель «проявляє нетерпимість» у перекладах, що стосуються сексуальної орієнтації та релігії, визнали розробники.
Крім цього, вони не рекомендують використовувати SeamlessM4T для довгих текстів і сертифікованих перекладів, а також для медичних або юридичних цілей.
Раніше SPEKA писала, що Meta представила генератор музики на основі штучного інтелекту AudioCraft.