AI генератор DALL · E створює зображення з тексту

Дослідники в галузі штучного інтелекту з OpenAi створили нейронну мережу під назвою DALL · E, яка генерує зображення з текстового опису природною мовою.

Система штучного інтелекту DALL·E названа на честь сюрреаліста Сальвадора Далі.

Вона має 12 мільярдів параметрів. AI здатний інтерпретувати та поєднувати різнорідні поняття, спираючись на базу даних з цими параметрами. DALL · E отримує текст і зображення як єдиний потік даних, що містить до 1280 лексем, і навчається генерувати всі маркери один за одним.

Малюнок за заданими параметрами: «смайлик дитячого пінгвіна в блакитному капелюсі, червоних рукавичках, зеленій сорочці та жовтих штанах»

Фахівці OpenAI пишуть, що успіх кінцевого продукту залежить від того, як саме буде сформульовано опис, закладений до нейромережі. Дослідники виявили, що DALL · E володіє величезним репертуаром генеративних можливостей, зокрема можливість створення антропоморфних тварин та інших незвичайних об’єктів.

«Ми виявили, що DALL · E може відображати текстури різних рослин, тварин та інших об’єктів на тривимірні тверді тіла. Повторення підпису з альтернативним формулюванням покращує результати»‎‎, – зазначають у OpenAi.

Малюнок за заданими параметрами: «куб з дикобразу. куб з текстурою дикобраза»

DALL · E вміє не тільки генерувати зображення з нуля, але й регенерувати будь-яку прямокутну область зображення, що вже існує, до нижнього правого кута зображення, відповідно до текстового опису.

Малюнок за заданими параметрами: «фотографія бюсту Гомера»

«Ми підказуємо DALL · E як підписом, що описує добре відому фігуру, так і верхньою областю зображення, що показує бюст, намальований під певним кутом. Потім ми просимо DALL · E заповнити решту частини зображення з урахуванням цієї контекстної інформації. Ми робимо це неодноразово, кожен раз обертаючи бюст ще на кілька градусів, і виявляємо, що ми можемо відновити плавну анімацію кількох відомих фігур, при цьому у кожному кадрі точні специфікації кута та навколишнього освітлення», – зазначають розробники.

Більш того, штучний інтелект здатен враховувати історичний і географічний контекст.

Малюнок за заданими параметрами: «Фотографії телефонів різних десятиліть XX століття»

Також DALL · E також має здатність поєднувати різні поняття для синтезу об’єктів, деякі з них навіть не існують у реальному світі.

Малюнок за заданими параметрами: «равлик з арфи. равлик з текстурою арфи»

DALL · E може генерувати картини та малювати ілюстрації.

Малюнок за заданими параметрами: «ілюстрація редьки-дайкон у пачці, що вигулює собаку»

Малюнок за заданими параметрами: «вітальня з двома білими кріслами і картиною Колізею, картина встановлена над сучасним каміном»

Більше про можливості мережі OpenAi розказують у своєму блозі.

Telegraf.Design живе за підтримки спільноти. Підтримуйте Telegraf.Design на Patreon.

Дослідники в галузі штучного інтелекту з OpenAi створили нейронну мережу під назвою DALL · E, яка генерує зображення з текстового опису природною мовою.

У нас є ще дещо для вас