Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Чи замінять нейромережі фотобанки та художників? Кейс DALL-E 2

Олександр Тартачний
Олександр Тартачний журналіст
17 вересня 2022 7 хвилин читання

Дизайнер компанії з розроблення програмного забезпечення Deephaven втомився шукати стокові фото для постів про абстракції програмування або замовляти їх у художників. Тому вирішив замінити усі обкладинки картинками, згенерованими нейромережею DALL-E 2. Розповідаємо про досвід компанії, поради щодо генерації контенту та знаходимо відповідь на запитання, чи стане DALL-E 2 заміною фотобанкам, художникам та Photoshop. 

Що таке DALL-E 2?

Це модель машинного навчання, яку розробила компанія OpenAI. Вона дає змогу створювати зображення на основі текстових запитів. У липні 2022 року DALL-E 2 увійшов у бета-фазу і став доступним 1 млн запрошених зі списку очікування. Нейромережа генерує чотири картинки за одним запитом або три, якщо ви додаєте додаткову текстову підказку. 

Як DALL-E 2 використовували у Deephaven?

За статистикою, повідомлення у блозі із зображеннями привертають увагу в 2,3 раза більше користувачів. Deephaven створює механізми запитів для потокових таблиць, тому їм складно підібрати релевантні зображення для технічних статей. 

Також у них (як і багатьох інших компаній з розроблення ПЗ) часто немає ані часу, ані бюджету, щоб замовляти індивідуальні ілюстрації для кожного допису. Як розповідає дизайнер Дон МакКензі, раніше вони 10 хвилин шукали зображення, близькі до теми, та публікували їх. 

Згодом дизайнер витратив $45, щоб замінити 100 зображень для блогу на згенеровані нейромережею. Ось кілька його спостережень щодо продукування контенту за допомогою DALL-E 2.  

Зображення у блозі Deephaven до та після використання DALL-E 2. Це та усі наступні зображення — © Deephaven Data Labs LLC Зображення у блозі Deephaven до та після використання DALL-E 2. Це та усі наступні зображення — © Deephaven Data Labs LLC

10 спостережень щодо створення зображень за допомогою штучного інтелекту

1. Сформувати правильний запит складно, це завдання потребує креативності

Сформувати правильний текстовий запит для нейромережі, щоб отримати бажаний результат може бути доволі важко. 

Для цього Дон МакКензі перечитував текст, робив примітки щодо усіх  зображень, які спадали йому на думку під час читання, а також шукав зображення та логотипи, пов'язані з цими темами. 

Наприклад, їхня нещодавня стаття анонсувала нову клієнтську бібліотеку на Go. Йому спала на думку ідея зробити ілюстрацію у вигляді блакитного ховраха (такий талісман є у мови програмування Go), який переглядає потоки табличних даних на кількох комп'ютерних моніторах. 

Щоб зробити таке зображення, знадобилося п'ять спроб, і лише на четвертій він став блакитним. 

Запит виглядав так:

Prompt: «a cute blue colored gopher with blue fur programming on multiple monitors displaying many spreadsheets, digital art».

Зображення згенероване Деном МакКензі за запитом Зображення згенероване Деном МакКензі за запитом

2. Згодом ви будете створювати потрібні зображення швидше

Користувачі отримають 50 безоплатних кредитів під час реєстрації та 15 безоплатних кредитів щомісяця. Один кредит застосовується щоразу, коли вводять запит, і користувач генерує або додає слова у запит.  На першому етапі бета-версії можна придбати додаткові кредити з кроком у 115 кредитів за $15. 

Перші спроби отримати бажані зображення потребували від Дона МакКензі 6-7 запитів, але після написання сотень текстових запитів зазвичай вдається отримати те, що потрібно за 2-3 спроби. 

Згенероване зображення за запитом: «труба, що виходить зі стіни в блакитній кімнаті, з якої виливаються біткойни, цифрове мистецтво 3d візуалізація» Згенероване зображення за запитом: «труба, що виходить зі стіни в блакитній кімнаті, з якої виливаються біткойни, цифрове мистецтво 3d візуалізація»

3. Стилістичні модифікатори важливі для створення цікавих зображень

Якщо створити запит без вказівки конкретного стилю, то згенеровані зображення зазвичай досить безглузді. Вони будуть схожими на мультики або поганий колаж. 

Додавання стилістичних елементів значно покращить результати. Є кілька порад: 

  • Варто додавати такі фрази, як «Кадр із ___ фільму», певну візуальну естетику або ім'я відомого художника.
Запит: «робот у стилі cottagecore читає книгу на веранді» Запит: «робот у стилі cottagecore читає книгу на веранді»
  • Дизайнер також додавав такі слова, як artstation, cgsociety, 4k і digital art, до багатьох обкладинок їхнього блогу. DALL-E також надає власні корисні підказки щодо запитів, які відображаються під час 10 секунд генерування картинки, показуючи приклади додавання стилів до ваших запитів.
DALL-E 2 демонструє підказку під час генерації зображення DALL-E 2 демонструє підказку під час генерації зображення

 4. Користуйтесь Reddit   

Для натхнення та розуміння того, як краще сформувати запит, відвідайте r/dalle2

Також є електронна книга, як краще формувати запити для DALL-E 2. 

5. Можливо, вам знадобиться доопрацювати картинку у Photoshop 

Часом нейромережа генерує картинки з безглуздим текстом. Тому деякі вдалі результати доводиться допрацьовувати у графічному редакторі, прибираючи зайве. Поки що невідомий спосіб зробити запит, за якого на зображенні точно не буде тексту.

Приклад створення нейромережею ілюстрації з безсенсовим текстом та її обробки.  Приклад створення нейромережею ілюстрації з безсенсовим текстом та її обробки. 

 

6. Через фільтри нейромережа іноді вважатиме, що ви намагаєтесь створити заборонений контент

Дон МакКензі розповідає, що його кілька разів попереджали про порушення правил створення ілюстрацій. У такому випадку картинка не генерується. Наприклад, він хотів використати слово shooting (постріл) на позначення променя світла, що стріляє у небо. Також не створяться жодні зображення, якщо запит містить слово «кров», навіть якщо задум не пов'язаний із насильством. 

OpenAI у себе на сайті розповідали, що навмисно зробили фільтри точнішими, щоб не дозволити DALL-E 2 генерувати контент, пов'язаний із насильством, протизаконними діями, порнографією та політичною діяльністю.

До речі DALL-E 2 не попереджає, яке саме стоп-слово використав користувач у запиті.   

7. Згенеровані зображення можна згодом редагувати 

Зображення можна завантажити повторно для редагування за допомогою штучного інтелекту. Також з ними можна робити типові операції з оброблення зображень (обрізати, створювати колажі і т. д.).  

8. Важко згенерувати дуже конкретну кількість речей у зображенні 

Нейромережа погано розуміє кількісні показники. Якщо потрібно два або три предмети на картинці, то ви їх отримаєте, але з великими числами все складніше. МакКензі намагався отримати дванадцять індиків, які перетнули фінішну лінію, але у результаті отримував від 4 до 20 штук. Якщо ввести запит, де будуть сотні об'єктів, то модель їх створить, але якість не завжди буде доброю

Зображення, які генерує нейромережа за запитом: «Кадр фільму, який показує, як 12 індиків у марафоні перетинають картату фінішну лінію на вулиці під час перегонів, золота година, низький ракурс»  Зображення, які генерує нейромережа за запитом: «Кадр фільму, який показує, як 12 індиків у марафоні перетинають картату фінішну лінію на вулиці під час перегонів, золота година, низький ракурс» 

9. Нейромережі не витіснять людину у мистецтві 

Наявність генератора зображень не зробить вас миттєво художником, так само як наявність фотоапарата не робить вас найкращим фотографом. Кураторство та оцінка того, що є мистецтвом або добрим зображенням, все ще функція людей.

Подібні побоювання були при появі Photoshop. Художники старої школи нарікали, що це вб'є галузь, зробивши малювання занадто легким. Але це просто інструмент, який цілком підійде і для художників. 

10. Фотобанки згодом можуть зникнути 

Хоча роль художника не скоро зникне, для фотостоків перспективи більш туманні. Нейромережа зробить використання зображень дешевшим, а графічним дизайнерам буде набагато простіше згенерувати основу для свого зображення та допрацювати її у Photoshop.

0
Прокоментувати
Інші матеріали

Google допомагає постачальникам зменшити викиди завдяки новим енергетичним проєктам

Вікторія Рудзінська 10 годин тому

Apple готується додати функції штучного інтелекту до Vision Pro

Вікторія Рудзінська 11 годин тому

Чи може сервісна економіка зробити світ багатим?

Олександр Тартачний 27 червня 2024 14:40

Youtube хоче отримати у лейблів ліцензії на використання музики для навчання свого ШІ

Вікторія Рудзінська 26 червня 2024 21:18

Керівник Anthropic помістив в офісі плакат із роботом, що знищує світ

Олеся Дерзська 26 червня 2024 16:01