Tencent запускає HunyuanVideo — відкриту модель генерації відео на основі ШІ
Китайська технологічна компанія Tencent анонсувала запуск HunyuanVideo — новаторської моделі генерації відео, яка має відкритий вихідний код, повідомляє Neowin. Це перша велика модель генерації відео з відкритими параметрами, що обіцяє революцію в екосистемі генерації відео.
Happy to share that our team at Tencent open-sources a 13B parameter video generation model
— chenyangqi (@chenyangqi1) December 3, 2024
Web Page: https://t.co/v6qQprYFUJ
GitHub: https://t.co/fSaO8gMT4W pic.twitter.com/ZHjzwnz9fw
Що таке HunyuanVideo
HunyuanVideo — це сучасна генеративна модель штучного інтелекту для створення відео з текстових підказок. З 13 мільярдами параметрів вона є найбільшою відкритою моделлю у своєму класі. Tencent стверджує, що HunyuanVideo:
Підписуйтеся на наші соцмережі
- Забезпечує високу візуальну якість відео.
- Пропонує широкий діапазон рухів і відповідність між текстом та відео.
- Перевершує провідні закриті моделі, такі як Runway Gen-3 і Luma 1.6.
HunyuanVideo базується на конструкції трансформера із застосуванням механізму Full Attention для уніфікованої генерації зображень і відео. Такий підхід до побудови моделі включає:
-
1
Гібридну архітектуру "двопотоковий-однопотоковий". На початковому етапі текстові та відео токени обробляються окремо для оптимізації модальностей, а пізніше ці потоки об'єднуються.
-
2
Комплексну інтеграцію тексту та візуальних даних. Це дозволяє створювати відео з реалістичною динамікою та чітким відповідником до текстових запитів.
Як тестували HunyuanVideo
Tencent провела оцінку HunyuanVideo за участю людей. Результати показали, що модель перевершує всі сучасні закриті аналоги за такими параметрами:
- Візуальна якість.
- Стабільність генерації.
- Різноманітність рухів.
Tencent надала HunyuanVideo у відкритому доступі, включаючи вихідний код і “ваги” моделі. Це відкриває нові можливості для дослідників, стартапів і технологічних компаній, дозволяючи використовувати модель для:
- Розробки кастомних рішень генерації відео.
- Інтеграції у мультимедійні застосунки та проєкти.
- Розвитку технологій ШІ з акцентом на відеоконтент.
Tencent оголосила, що публікація коду та параметрів базової моделі спрямована на скорочення розриву між моделями з відкритим і закритим кодом. Це допоможе зробити створення якісних відео на основі штучного інтелекту більш доступним. Відкритий код HunyuanVideo можна знайти на GitHub.