Колонка
Чи може розробник вмить стати художником
Експеримент з DALL-E 2 і Stable Diffusion зі створення книжкових персонажів
7 квітня, 2023

Олександр Вітер, Senior Software Engineer, провів експеримент із залученням нейромереж, щоб перевірити наскільки вони є небезпечними «викрадачами» професій. І чи здатна людина, яка «не вміє у візуал і художність», створити справді гідне художнє зображення, користуючись лише інструментами штучного інтелекту, не залучаючи інших творчих навичок. Подивимося, що з цього експерименту вийшло.

Останній рік у світі ІТ без перебільшення можна назвати роком паніки від прогресу у сфері штучного інтелекту (ШІ). Письменники, копірайтери та сценаристи бояться, що нейромережі можуть забрати їхню роботу з написання текстів та творів. Викладачі у школах та університетах переймаються, що не зможуть відрізнити текст написаний учнем, від тексту згенерованого алгоритмом. Художники подають судові позови щодо того, що ШІ грубо порушує їхні авторські права. І доводять, що розробники нейромереж мають платити художникам, а не безкоштовно використовувати їхні твори як базу для навчання ШІ.

З огляду на хайп навколо теми, мені, як людині досить далекій від творчості, стало цікаво — чи насправді нейромережі для генерації зображень здатні робити настільки якісний продукт, який замінить продукт створений професіоналами. Чи навпаки людям творчих професій ще зарано думати про перехід у іншу сферу, й їхні навички ще матимуть попит, хоча б певний час?

Щоб не витрачати час на порожні теоретичні розмірковування, я вирішив провести експеримент і на практиці подивитися, на що ж здатен штучний інтелект, та яких зусиль доведеться докласти для отримання результату.

Невелике пояснення для тих, хто не знає, як саме відбувається процес генерації зображень з точки зору звичайного користувача нейромережею.
1. Ви знаходите один з сайтів, на яких можна згенерувати зображення;
2. Створюєте обліковий запис
3. У вебформі за допомогою тексту описуєте, що хочете побачити в результаті.
4. Відбувається спеціальна математична та програмістська магія і вуаля…
5. Ви отримуєте згенеровані зображення, що більш-менш відповідають вашому запиту.

Я врахував це, щоб експеримент був максимально наближений до реальних умов, і не був зіпсований моїм персональним втручанням. Тож обрав наступну стратегію:

  • уявити, що автор відомої книги хоче створити ілюстрації до неї;
  • як вхідні дані використовувати цитати з цієї книги;
  • не використовувати постобробку, а показати результати у тому вигляді, в якому їх згенерував ШІ.

Також, щоб трохи зекономити час та щоб ще більше перевірити можливості штучного інтелекту, я скористався допомогою ChatGPT у пошуку цитат, що описують персонажів чи локації з відомих творів. Я обрав «Володар перснів» (The Lord of the Rings), «Аліса в Країні Див» (Alice in Wonderland) та «Гаррі Поттер і Філософський камінь».
Для генерації зображень я використовував сервіс Night Cafe та просто обирав варіанти, які сам сайт рекомендував як оптимальні. Тобто з моєї сторони кількість втручань у процес була сміховинно малою, враховуючи результат. Ctrl+C, Ctrl+V, Left Click, Download — ось і все, що потрібно було зробити, щоб перетворити цитату з книги на ілюстрацію до неї.

Ось, з чого все починалося:

Форма для вибору методу генерації зображень на сайті Night Cafe

Запит до ChatGPT про точну цитату з «Володаря перснів» про Арагорна

На жаль, ця цитата виявилася надто довгою для сервісу генерації зображень, тому довелося використати лише її частину. І от що ми маємо в результаті:

Твір: «Володар перснів»
Персонаж: Арагорн
Цитата: «His right name is a secret, and he has forsaken his inheritance and gone into the wild, where he passes himself off as a vagabond and a ranger of the North.»
Переклад цитати: «Його справжнє ім’я залишається таємницею, і він відмовився від спадщини та пішов у дику природу, де видає себе за бродягу та рейнджера Півночі.»
Нейромережа: Stable Diffusion

Результат:

Твір: «Володар перснів»
Персонаж: Гендальф
Цитата: «He wore a tall pointed hat, a long grey cloak, and a silver scarf. He had a long white beard and bushy eyebrows that stuck out beyond the brim of his hat. He looked larger than life.»
Переклад цитати: «На ньому був високий гостроверхий капелюх, довгий сірий плащ і сріблястий шарф. У нього була довга біла борода й густі брови, що стирчали за край капелюха. Він виглядав неймовірно».
Нейромережа: Stable Diffusion

Результат:

Твір: «Володар перснів»
Персонаж: Фродо
Цитата: «He was a slender, but sturdy hobbit, with well-to-do brown hair on his head and feet, and a round, jolly face. He had a pocket-handkerchief tied to his neck, and he wore a chain of silver around his waist.»
Переклад цитати: «Це був стрункий, але міцний хоббіт із густим каштановим волоссям на голові та ногах і круглим, веселим обличчям. На його шиї була прив’язана кишенькова хустка, а на талії він носив срібний ланцюжок».
Нейромережа: DALL-E 2

Результат:

Твір: «Володар перснів»
Персонаж: Галадріель
Цитата: «She was tall and fair beyond measure, and her hair was lit with gold as if it had caught in a mesh the radiance of Laurelin. Her eyes were grey as the sea, her robes shot with silver.»
Переклад цитати: «Вона була високою та надзвичайно красивою, а її волосся було підсвічене золотом, ніби воно впіймало сяйво Лорелін. Її очі були сірі, як море, її вбрання були пронизані сріблом».
Нейромережа: Stable Diffusion

Результат:

Твір: «Сільмарілліон» (Всесвіт Володаря перснів)
Персонаж: Саурон
Цитата: «In the midst of the Void he beheld a flame of wavering light, which slowly took shape as a vision of a seated figure, huge and strong, with a crown on its head, and dark raiment.»
Переклад цитати: «Посеред Порожнечі він побачив полум’я коливливого світла, яке повільно набуло вигляду сидячої фігури, величезної та сильної, з короною на голові та темним одягом».
Нейромережа: Stable Diffusion

Результат:

Твір: «Аліса в Країні Див»
Персонаж: Аліса
Цитата: «Alice was beginning to get very tired of sitting by her sister on the bank, and of having nothing to do: once or twice she had peeped into the book her sister was reading»
Переклад цитати: «Аліса почала дуже втомлюватися сидіти біля сестри на березі й не мати чим зайнятися: раз чи два вона заглядала в книжку, яку читала її сестра».
Нейромережа: DALL-E 2

Результат:

Твір: «Аліса в Країні Див»
Персонаж: Кролик
Цитата: «A rabbit with a waistcoat-pocket and a watch to take out of it.»
Переклад цитати: «Кролик з кишенею у жилетці та кишеньковим годинником».
Нейромережа: Stable Diffusion

Результат:

Твір: «Аліса в Країні Див»
Персонаж: Божевільний Капелюшник
Цитата: «The Hatter was a short, stout man in a coat of many colors, with a large bow tied around his neck. His eyes were large and googly, and his hair stuck out in all directions as if it had been cut with a blunt pair of scissors.»
Переклад цитати: «Капелюшник був невисоким, міцним чоловіком у різнокольоровому сюртуку з великим бантом на шиї. Очі в нього були великі й гуглі, а волосся стирчало на всі боки, наче його підстригли тупими ножицями».
Нейромережа: Stable Diffusion

Результат:

Твір: «Гаррі Поттер і Філософський камінь»
Персонаж: Гаррі Поттер
Цитата: «Harry had always been small and skinny for his age. Harry had a thin face, knobbly knees, black hair, and bright green eyes.»
Переклад цитати: «Гаррі завжди був маленьким і худим для свого віку. У Гаррі було худе обличчя, горбкі коліна, чорне волосся й яскраві зелені очі».
Нейромережа: Stable Diffusion

Результат:

Твір: «Гаррі Поттер і Філософський камінь»
Персонаж: Герміона
Цитата: «She had a bossy sort of voice, lots of bushy brown hair, and rather large front teeth.»
Переклад цитати: «У неї був владний голос, багато густого каштанового волосся та досить великі передні зуби».
Нейромережа: Stable Diffusion

Результат:

Твір: «Гаррі Поттер і Філософський камінь»
Локація: Хогвартс
Цитата: «Through the fog they could see the high, turreted walls of the castle ahead. The carriage stopped, and the students climbed out and stood shivering on the stone steps of the castle.»
Переклад цитати: «Крізь туман вони могли бачити попереду високі стіни замку з башточками. Карета зупинилася, студенти вилізли з неї й, тремтячи, стояли на кам’яних сходах замку».
Нейромережа: Stable Diffusion

Результат:   

Отже, чи виявився експеримент успішним?

На мою думку, ШІ для генерації зображень поки ще не готовий конкурувати з живими людьми у сфері створення ілюстрацій.

Як ви могли побачити, деякі зображення мають відверто синтетичний вигляд і не дуже приємні оку. На деяких зображеннях нейромережа проігнорувала певні частини запиту (наприклад, смоляно-чорне волосся у Галадріель, замість золотистого). На інших ШІ помилився, неправильно зрозумівши, до якої частини зображення слід застосувати колір з опису (і так ми отримали зеленого Гаррі Поттера, який більше схожий на Халка, ніж на чаклуна).

Тому я б сказав, що фрази типу «нарешті гарно малювати може кожен — треба лише ввести текст і натиснути декілька кнопок!» — це явне перебільшення і прикрашання реальності.

По-перше, щоб мати релевантний текст, треба витратити час. Це може бути час на пошук опису персонажа, місцевості і явища, або ж час на використання власної фантазії й вигадування опису того, що ви хочете побачити в результаті.

По-друге, далеко не кожен отриманий результат вас задовольнить. А отже вам треба буде витрачати додатковий час на переформулювання запиту, перегенерацію зображень, порівняння їх з попередніми згенерованими, вибір кращого варіанта тощо.

По-третє, на більшості онлайн-сервісів, що надають змогу робити все це, у кожного користувача є певний ліміт безкоштовних запитів на день. Після того як ліміт буде вичерпано, є лише два варіанти:
1) зачекати добу, доки вам не нададуть нові безкоштовні спроби;
2) заплатити розробникам нейромережі, щоб миттєво отримати можливість генерувати ще.

Глобальний висновок

У людства з’явився умовно-безкоштовний інструмент для генерації зображень на базі тексту, який має певні недоліки, особливості та обмеження. Більшість обивателів, які просто цікавляться темою скоріше «пограються» із цим ШІ, ніж реально покладати на нього серйозні творчі сподівання.
Бізнесу чи, наприклад, незалежним розробникам із запитом на гарні зображення для проєкту значно швидше і, враховуючи всі часові та фінансові витрати, економніше буде звернутися до живої людини дизайнера/художника. Обговорити запит і отримати результат, не витрачаючи зайвий час на спроби самому згенерувати саме те ідеальне зображення, що живе у замовника в голові.

Також, на мій погляд, інструмент нейромереж може допомогти й самим художникам у їхньому професійному зростанні. Наприклад, намалювавши щось (на замовлення чи для себе), можна спробувати описати текстом малюнок штучному інтелекту, згенерувати з десяток зображень у різних стилях і з різними налаштуваннями та подивитися на результат. Це дозволить розширити «арсенал» і менше боятися конкуренції зі сторони як ШІ, так і інших художників.

Окремо хочу зазначити, що для різних зображень я використовував різні нейромережі — Stable Diffusion та DALL-E 2. Мені здалося, що перша генерує більш реалістичні, а друга — більш мультяшні зображення. Але можливо це пов’язано з тим, який текстовий опис припав на кожну з них, а детальніше дослідження показало б, що це не так, і вони цілком можуть скласти гідну конкуренцію одна одній.

Дуже сподіваюся, що ця стаття змотивувала вас спробувати згенерувати щось самостійно. Можливо, хтось захоче спростувати мої висновки й показати, що насправді ШІ може генерувати шедеври у 90-100% випадків, а не лише у ~10-20%, як вийшло у мене.

У нас є ще дещо для вас