Змагання штучних інтелектів. Google представив нейромережу для генерації відео
Лише кілька днів тому Meta представила свою нейромережу Make-To-Video, яка генерує відео за словесним описом, а тепер до цього сегменту приєднується компанія Google.
Нейромережа Imagen Video: особливості
Imagen Video здатна за словесними запитами генерувати відео з роздільною здатністю 1280 768 пікселів і частотою 24 кадри на секунду. Інструмент базується на алгоритмі Imagen, що є аналогом DALL-E 2 та Stable Diffusion. Генератор картинок використовує велику передбачену мовну нейромережу та каскадну дифузну модель.
Підписуйтеся на наші соцмережі
Зображення, згенеровані Imagen
Як пояснюють у Google, Imagen Video бере текстовий опис і створює 16-кадровий ролик із роздільною здатністю 24х48 пікселів і частотою 3 FPS. Потім система масштабує та передбачає додаткові зображення. В результаті алгоритм генерує 128-кадрову анімацію з роздільною здатністю 1280×768 пікселів та частотою 24 FPS.
Для навчання Imagen Video розробники використовували 14 млн пар «відео-опис» та 60 млн «зображення-текст», а також загальнодоступний набір даних LAION-400M, що дозволило моделі застосовувати низку естетичних аспектів.
У порівнянні з доступними сьогодні системами створення зображень Imagen Video також може належним чином відтворювати текст. У той час як і Stable Diffusion, і DALL-E 2 важко перекладають підказки на зразок «логотип для Diffusion» у читабельний шрифт, Imagen Video відтворює це без проблем.
Це не означає, що Imagen Video не має обмежень. Як і у випадку з Make-A-Video, навіть кліпи, вибрані з Imagen Video, тремтять і місцями спотворені.
Щоб покращити ситуацію, команда Imagen Video планує об'єднати зусилля з дослідниками Phenaki, ще однієї системи перетворення тексту у відео від Google, яка дебютувала сьогодні та може перетворювати довгі детальні підказки на двохвилинні відеоролики, хоча і з нижчою якістю.
Раніше ми розповідали, що Google запускає Startup Academy для підтримки українських стартапів.