Runway невдовзі випустить нову версію нейромережі, яка генерує відео за текстовим запитом: що відомо?
Компанія, що створила ШІ-сервіс для монтування графіки, готується випустити нову нейромережу, яка створюватиме відео. Розповідаємо, що відомо про Runway і чи вдасться їй обійти Google та Meta у перегонах алгоритмів.
Runway: від програми для оброблення відео до нейромережі
Runway розпочався як дипломний проєкт співзасновника Крістобаля Валенсуели у Школі мистецтв при Нью-Йоркському університеті.
Спершу він створив програму Runway ML, яка пропонувала художникам, дизайнерам, відеографам та іншим креативникам можливості машинного навчання для оброблення зображень та відео. Наприклад, аніматор з обмеженим бюджетом хоче перетворити відео з актором на 3D-модель. Замість того щоб наймати дороге обладнання для захоплення руху, можна використовувати Runway ML. Або ж запустити відзнятий матеріал через модель сегментації, яка автоматично виділятиме або змінюватиме зайві об'єкти та написи у кожному кадрі, які потрібно прибрати.

Отримавши у 2019 році захоплені відгуки від арт-спільноти, Валенсуела попросив двох шкільних друзів стати співзасновниками та зібрав стартовий капітал від спонсорів.
У 2021-му Runway співпрацювала з дослідниками Мюнхенського університету, щоб створити першу версію Stable Diffusion — нейромережі, що здатна генерувати зображення із текстових запитів. Тоді британський стартап Stability AI сплатив витрати на навчання моделі.
Зараз Runway більше не співпрацює зі Stability AI. На останню фотобанк Getty Images подав позов до суду, стверджуючи, що компанія використовувала зображення Getty, які з'являються у навчальних даних Stable Diffusion, без дозволу. Судовий розгляд ще триває і ймовірно стане прецедентом для поняття авторського права на згенерований контент.
Коли Runway оприлюднить нову нейромережу та на що вона здатна?
Runway анонсувала свою першу модель редагування відео AI Gen-1 у лютому. Gen-1 переважно працює із трансформацією наявних фото та відео, дозволяючи застосовувати користувачам фільтри або створювати 3D-анімацію. Наприклад, кадри картонного пакування перетворюються на зображення промислової фабрики.
Натомість Gen-2 має створювати відео з нуля за текстовим запитом. Runway каже, що зробить свою нову генеративну відеомодель Gen-2 доступною для користувачів найближчими тижнями.
Generate videos with nothing but words. If you can say it, now you can see it.
— Runway (@runwayml) March 20, 2023
Introducing, Text to Video. With Gen-2.
Learn more at https://t.co/PsJh664G0Q pic.twitter.com/6qEgcZ9QV4
Схожі розробки є у технологічних гігантів, зокрема Meta та Google. Натомість Runway стверджує, що створив свою модель з урахуванням клієнтів. «Це одна з перших моделей, яку розробили разом із спільнотою виробників відео, — каже Валенсуела. — У ній є розуміння того, як кінематографісти та монтажери насправді працюють над постпродакшеном». До того ж можливості Ranway значно скромніші — у компанії працюють 45 співробітників.
Чи якісна Gen-2 від Ranway?
Окрім того, доступ до Gen-1 та Gen-2 обмежений. Компанія у себе на сайті запрошує реєструватися, щоб приєднатися до списку очікування для Gen-2, яка працюватиме через Discord. Щоправда, посилання на реєстрацію на момент написання статті не працюють, з чого жартують у коментарях до дописів компанії у Twitter, хоча деякі із користувачів зазначають, що їм вдалося потестити Gen-1.
Але наразі усе, що ми маємо про Gen-2, — це демонстраційний ролик і кілька кліпів (більшість з яких уже рекламувалися як частина Gen-1).
Що заважає нейромережам створювати відео?
Створити правдиве відео, повністю згенероване штучним інтелектом, поки що дуже складне завдання.
Наприклад, Meta у своїй розробці Make-A-Video виводить 16 кадрів відео з роздільною здатністю 64 на 64 пікселі, які потім потрібно збільшувати за допомогою окремої моделі ШІ до 768 на 768.
Чого досягли Google Meta у генерації відео за допомогою ШІ
Зараз ролики від Make-A-Video тривають не більше п'яти секунд і не містять звуку. Відео виглядають надто штучними, але, на думку Марка Цукерберга, це однаково успіх. У своєму пості він описав цю роботу як «дивовижний прогрес», додавши: «Згенерувати відео набагато важче, ніж фотографії, тому що, крім правильного створення кожного пікселя, система також має передбачити, як вони змінюватимуться з часом».
Meta наразі також не надає доступ до моделі. Це означає, що під час створення компанія могла обрати відео, що показують її у найкращому світлі.
Google вирішив створити не одну, а дві моделі. Phenaki може створювати відео тривалістю дві хвилини за вашим запитом, але поганої якості.
Натомість модель Imagen Video створює короткі кліпи високої роздільної здатності. Ймовірно, у компанії сподіваються, що комбінована модель може створювати довгі послідовні відео високої якості. У документі, що описує модель, дослідники кажуть, що їхній метод може генерувати відео довільної тривалості.
Very happy to release #ImagenVideo today! Amazing work with an amazing team!https://t.co/Cdv8hKCGGk
— Tim Salimans (@TimSalimans) October 5, 2022
High fidelity text to video with diffusion models: "Flying through an intense battle between pirate ships in a stormy ocean." https://t.co/0uxNTIoiFY pic.twitter.com/M3lAQPJG1K
Чи можуть відеомоделі засвоїти когнітивні упередження
Наразі невідомо, на яких даних навчався Gen-2, але загалом це можливо для усіх нейромереж, які генерують контент. Meta наголошує, що, як і всі моделі штучного інтелекту, навчені на даних, зібраних з інтернету, Make-A-Video «вивчила та, ймовірно, перебільшила соціальні упередження, зокрема шкідливі». Наприклад, якщо попросити модель створити зображення керівника компанії, то на ньому ймовірно буде білий чоловік середнього віку у костюмі. Однак неможливо сказати, які упередження засвоїла модель Meta без відкритого доступу.
Як і в моделях перетворення тексту в зображення, тут існує потенціал для шкідливих програм. У дописі в блозі Meta, де анонсується Make-a-Video, компанія зазначає, що інструменти створення відео можуть бути недооціненими для творців, але їх можна використати для дезінформації, пропаганди та створення порнографії без згоди, щоб застосовувати переслідування та залякування жінок.
Також припускають, що, коли технологія стане доступною, не мине й хвилини, як її застосують для створення порнографії, а також фейкових новин.