Головна штучний інтелект

Нейромережі навчилися перетворювати текст на реалістичні зображення. Що вміють Google Imagen та DALL-E 2 і чому це небезпечно

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

30 травня 2022 4 хвилин читання

Минулого тижня компанія Google презентувала проєкт Imagen. Це система штучного інтелекту, яка вміє перетворювати текстові описи на реалістичні зображення.

Imagen вже друга професійна нейромережа, що працює за моделлю text-to-image. У майбутньому подібні системи можуть взяти на себе значну частину роботи дизайнерів та художників. SPEKA розповідає, що вміють такі нейромережі та які етичні проблеми вони порушують.

Як працює Imagen

Моделі штучного інтелекту text-to-image здатні розуміти зв'язок між зображенням і словами, які його описують. Оператор мережі задає текстовий опис, а система генерує зображення на основі власної інтерпретації тексту. Нейромережа здатна поєднувати різні об'єкти, атрибути та стилі. За заданим описом «фотографія собаки» система створює реалістичне зображення, яке виглядатиме як справжнє фото. Але якщо змінити опис на «собака, намальована олійною фарбою», зображення буде схожим на живопис.

У Google стверджують, що нова модель перетворення тексту на зображення Imagen має «безпрецедентний ступінь фотореалізму і глибоке розуміння мови». Ось декілька прикладів заданих текстових описів і зображень, які Imagen створив на їхній основі.

Автори технології також розповіли про механіку створення нових креативів. Розібравши текстовий опис, Imagen генерує зображення розміром 64 x 64 пікселі, а потім виконує два послідовні покращення і створює зображення розміром 1024 x 1024 пікселі.

Детально роботу алгоритмів Imagen дослідницька команда розібрала у науковій роботі.

Google vs OpenAI

Google Imagen — друга професійна нейромережа, що працює за моделлю text-to-image. У 2021 році компанія OpenAI, одним зі співзасновників якої є Ілон Маск, продемонструвала можливості власної нейромережі DALL-E. Ця система теж уміє створювати чи не всі зображення за текстовим описом.

Втім, результати роботи DALL-E були далекі від того, що користувачам хотілося б повісити собі на стіну. У квітні 2022 року компанія випустила друге покоління нейромережі DALL-E 2, яка вміє створювати у декілька разів більші та деталізованіші зображення.

Розробники з Google стверджують, що нейромережа Imagen здатна створювати реалістичніші зображення, ніж DALL-E 2. Вони створили інструмент DrawBench, який дозволяє порівнювати різні моделі text-to-image між собою. Порівняння показало, що Imagen переважає DALL-E 2 і в якості зображень, і у відповідності між описом і зображенням.

Що може піти не так

Натепер нейромережа DALL-E 2 доступна розробникам на спеціальній платформі, на яку можна потрапити лише за інвайтом від OpenAI. Google теж не поспішає відкривати можливості Imagen для широкого загалу. Річ у тім, що розробки моделей text-to-image порушують декілька етичних проблем.

По-перше, ці нейромережі використовують доступні невідсортовані масиви зображень з інтернету. Це призводить до того, що згенеровані мережею результати можуть містити ознаки соціальних, культурних і расових стереотипів, закладених у той чи інший невідсортований датасет.

Крім того, існують сценарії несумлінного використання подібних технологій. Зловмисники могли б застосовувати їх для створення фейкових зображень, які виглядають як справжні. Умовно кажучи, можна задати моделі текст: «Фотографія українського військового, який катує полонених» — і система створить реалістичний фейк.

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

Інші матеріали

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

Вікторія Рудзінська 1 годину тому

Бразильський регулятор захисту даних (ANPD) заборонив Meta тренувати свої моделі штучного інтелекту на бразильських персональних даних, посилаючись на «ризики серйозної шкоди та труднощів для користувачів».

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

На ШІ-пошук у Google потрібно вдесятеро більше електроенергії, ніж на звичайний

Олеся Дерзська 3 години тому

Google цьогоріч представив інструменти з інтеграцією ШІ, що коротко переказують зміст новин та документів. Вони споживають вдесятеро більше електроенергії за звичайний пошук у Google, пише видання Boing Boing.

На ШІ-пошук у Google потрібно вдесятеро більше електроенергії, ніж на звичайний

Google в США вимагатиме маркувати ШІ в передвиборчій рекламі

Олеся Дерзська 5 годин тому

В США Google перед президентськими виборами вимагатиме від рекламодавців маркувати ШІ в рекламі, повідомляє Reuters. Втім, тепер позначати видозмінені чи синтетичні зображення стало легше.

Google в США вимагатиме маркувати ШІ в передвиборчій рекламі

Meta демонструє ШІ-інструмент 3D Gen для швидкої генерації текстурованих 3D-моделей

Вікторія Рудзінська 21 годину тому

Meta представила новий інструмент штучного інтелекту 3D Gen, що дозволяє створювати або ретекстурувати 3D-об'єкти на основі текстових підказок швидше, ніж будь-коли раніше.

Meta демонструє ШІ-інструмент 3D Gen для швидкої генерації текстурованих 3D-моделей

Figma тимчасово вимикає функцію ШІ через проблеми з копіюванням дизайнів

Вікторія Рудзінська 22 години тому

Figma вирішила тимчасово вимкнути свою нову функцію штучного інтелекту «Make Design» після того, як було виявлено, що вона копіює дизайни інших застосунків.