Окей, гугл згенеруй мені тікток. Як нейромережі створюють відео за голосовим запитом
Нейромережі, які створюють зображення за текстовим запитом, привернули чимало уваги медіа останнім часом. І це не дивно, адже результати їхньої роботи покращилися та наблизилися до майже фотографічного ефекту.
Але дослідники вже переходять до наступного етапу — алгоритмів штучного інтелекту, які перетворюють текст у відео. SPEKA розповідає, як Google та Meta вдалося навчити програми створювати відео з тексту та як це вплине на цифрову індустрію.
Make-A-Video від Meta
Команда інженерів машинного навчання Meta представила нову систему під назвою Make-A-Video у вересні 2022 року. Ця модель штучного інтелекту дозволяє користувачам вводити приблизний опис сцени, а алгоритм створить коротке відео, яке відповідає тексту.
Поки відео виглядають надто штучними, з розмитими об'єктами та спотвореною анімацією, але це однаково значний крок вперед для сфери ШІ. У дописі на Facebook генеральний директор Meta Марк Цукерберг описав цю роботу як «дивовижний прогрес», додавши: «Згенерувати відео набагато важче, ніж фотографії, тому що, крім правильного створення кожного пікселя, система також має передбачити, як вони змінюватимуться з часом».
Зараз ролики від Make-A-Video тривають не більше п'яти секунд і не містять звуку.
Відео, розміщені нижче, згенеровані у Make-A-Video та супроводжуються підказкою, використаною для їхнього створення. Варто наголосити, що відео оприлюднила Meta, яка наразі не надає доступ до моделі. Це означає, що під час створення компанія могла обрати відео, що показують її у найкращому світлі.
Сьогодні очевидно, що результати моделей швидко покращаться. Для порівняння: за кілька років генератори зображень зі штучним інтелектом перейшли від незрозумілих зображень до фотореалістичних, а результати мовної моделі ChatGPT доводять, що розвиток штучного інтелекту нелінійний і набагато швидший, ніж здавалося раніше.
Що заважає нейромережам створювати відео?
Модель має багато технічних обмежень, окрім розмитих кадрів і незв'язаної анімації. Методи навчання не в змозі вивчити інформацію, яку розуміє людина, що переглядає відео, наприклад, чи рухається відео зліва направо чи справа наліво. Інші проблеми стосуються створення відео тривалістю понад п'ять секунд, відео з кількома сценами та з вищою роздільною здатністю. Make-A-Video виводить 16 кадрів відео з роздільною здатністю 64 на 64 пікселі, які потім збільшуються за допомогою окремої моделі ШІ до 768 на 768.
Команда Meta також наголошує, що, як і всі моделі штучного інтелекту, навчені на даних, зібраних з інтернету, Make-A-Video «вивчила та, ймовірно, перебільшила соціальні упередження, зокрема шкідливі». Наприклад, попросіть модель створити зображення «керівника компанії», і на ньому, ймовірно, буде білий чоловік середнього віку у костюмі. Однак неможливо сказати, які упередження засвоїла модель Meta без відкритого доступу.
Як навчали нейромережу для створення відео?
Підписуйтеся на наші соцмережі
У документі, в якому описується модель, дослідники Meta кажуть, що Make-A-Video тренується на розмічених даних (парах зображень із підписами до них) та нерозмічених (відеоматеріалах без позначок). Вміст навчання отримали з двох наборів даних (WebVid-10M і HD-VILA-100M), які разом містять мільйони відео, що охоплюють сотні тисяч годин.
Поєднання двох типів даних використали для того, щоб модель прогнозувала, де в часі та просторі відео існує зображення із розмічених даних. Потім вона може передбачити, що буде після зображення, і відобразити сцену в русі на короткий період.
«Розширена просторово-часова мережа містить нові модулі уваги (механізм, що підсилює важливі частини даних та пригнічує решту. — Ред.), які вивчають часову динаміку світу з колекції відео», — йдеться в офіційному документі Meta.
Розробки Google
Оскільки генерування відео має багато обмежень, Google вирішив створити не одну, а дві моделі. Phenaki може створювати відео тривалістю дві хвилини за вашим запитом, але поганої якості. Натомість модель Imagen Video створює короткі кліпи високої роздільної здатності. Ймовірно, у компанії сподіваються, що комбінована модель може створювати довгі послідовні відео високої якості.
Як працює Imagen Video
Ця модель заснована на методах, відточених у іншій системі перетворення тексту на зображення Google Imagen, але передбачає безліч нових компонентів, які перетворюють статичні кадри на рух.
Як і у випадку з моделлю Make-A-Video, остаточні результати одночасно неймовірні та химерні. Найпереконливіше виглядають прості анімації. Найменш достовірні кліпи — ті, які повторюють рух реальних людей і тварин, адже тут у нас є таке чітке уявлення про те, як повинні рухатися тіла.
Більше прикладів можна переглянути тут.
Дослідники Google кажуть, що модель Imagen Video виводить 16 кадрів із частотою 3 FPS та роздільною здатністю 24×48. Далі відео покращують до 128 кадрів з 24 FPS і роздільною здатністю 1280×768. Якість краща, ніж у моделі Meta.
Як працює нейромережа Phenaki
На відміну від двох попередніх моделей, Phenaki може генерувати цілі історії зі зміною подій та сцен і значною тривалістю. Але якість відео вкрай низька.
У документі, що описує модель, дослідники кажуть, що їхній метод може генерувати відео довільної тривалості. Вони стверджують, що майбутні версії моделі «будуть частиною широкого набору інструментів як для художників, так і для не митців, надаючи нові та захопливі способи прояву творчості». Автори анонімні, оскільки робота досі на рецензуванні для конференції AI International Conference on Learning Representations (ICLR).
Як і великі системи зображень, мультимодальну модель навчили в основному за допомогою пар текст-зображення. Крім того, дослідники тренували Phenaki за допомогою 1,4-секундних пар коротких відеотекстів зі швидкістю вісім кадрів на секунду.
«Ми демонструємо, як спільне навчання на великому корпусі пар зображення-текст, а також на меншій кількості прикладів відеотекст може узагальнити те, що доступне у наборах відеоданих», — пишуть дослідники.
Система може навіть обробляти текстові запити або оживляти вже наявні зображення. Phenaki був навчений з різними наборами даних, серед них набір даних LAION-400M, який містить насильницький, кривавий і порнографічний контент, але покращив якість генерації системи.
Команда зазначає, що вони експериментували з фільтрами, щоб упіймати запити, які можуть створити NSFW-контент і видалити з відео, проте не прозвітували про успіх і роблять висновок, що «залишилося кілька важливих проблем безпеки та етики».
Упередження, крадений контент та дипфейки: які загрози несе генерація відео
Натепер ми можемо лише прогнозувати, наскільки швидко ШІ зможе створювати якісні відео. Однак перестороги вже виникають. Через упередження та неможливість повністю фільтрувати контент, розробники поки що не надають відкритих доступів до моделей. Але це ще не всі проблеми.
Дослідник штучного інтелекту Саймон Віллісон перевірив набір даних, який використовували для навчання моделі Make-A-Video, і виявив, що у ньому використовують понад 10 млн відео, взятих із Shutterstock без дозволу, а Енді Байо помітив, що 3,3 млн додаткових відео надійшли з YouTube.
Як і в моделях перетворення тексту в зображення, тут існує потенціал для шкідливих програм. У дописі в блозі Meta, де анонсується Make-a-Video, компанія зазначає, що інструменти створення відео можуть бути неоціненними для творців і художників. Але результати цих інструментів можуть використати для дезінформації, пропаганди та створення порнографії без згоди, щоб застосовувати переслідування та залякування жінок.
Meta каже, що хоче «продумати те, як ми створюємо нові генеративні системи штучного інтелекту, як ця», і планує випустити демонстраційну версію системи, але не повідомляє, коли і як доступ до моделі може бути обмежений.
Оптимізму щодо штучної генерації відео мало і у звичайних користувачів. У коментарях про анонсування Make-A-Video користувачі ресурсу Ars Technica припускають, що коли технологія стане доступною, не мине і хвилини, як її застосують для створення порнографії, а також фейкових новин.
