// //
новости

Появился бот, который создает изображения по словесному описанию

Microsoft представила «рисующего бота», который создает изображения, основываясь на описании объектов. Для его разработки была применена технология искусственного интеллекта: бот не только следует описанию, но и добавляет детали от себя.

Изображение, созданное по запросу «желтая птица с черными крыльями и коротким клювом». Источник: Microsoft

По словам Ксядонга Хе, главного исследователя Центра глубокого обучения лаборатории Microsof в Рендмонде (Вашингтон), рисунок птицы, созданный ботом, отличается от того, что можно найти в поисковых системах. Нарисованной птицы может в принципе не существовать в природе. Ее изображение создано с нуля и основано на представлении бота о птице.

Он может создавать как изображения типичных сцен, подобно тех, что можно купить на фотостоке, так и абсурдные несуществующие сценарии.

В основе бота — технология GAN (Generative Adversarial Network). Это сеть, состоящая из двух моделей машинного обучения. Первая генерирует изображения из текстового описания, а вторая — дискриминатор — оценивает его реалистичность. Генератор заинтересован в утверждении картинки дискриминатором, который не даст себя одурачить. Вместе модели доводят изображение до возможного идеала.

Бота обучали на базах данных, в которых содержатся парные изображения и кэпшны. Они дают возможность моделям научиться совмещать слова с их визуальным представлением. Например, GAN учится не только генерировать картинку птицы, когда в кэпшне указано «птица», но и запоминать, как птица должна выглядеть.

Изображение, созданное по запросу «это красная с белым птица с очень коротким клювом». Источник: TechCrunch

Технология хорошо работает с простым описанием объекта (например, «синяя птица»). Качество немного страдает с более детальным описанием (например, «птица с зеленой головой, желтыми перьями и красным животиком»). Причина в том, что все предложение генератор воспринимает как один инпут.

Создатели говорят, что технология генерации текста в картинку может стать основой для дизайнерских приложений. Например, программы ассистента для создания скетчей для художников или дизайнеров интерьеров. Или же инструмента для улучшения фото с помощью голоса. По словам исследователя Хе, в будущем технология сможет генерировать анимационные фильмы, основываясь на сценариях.

Изображение, созданное по запросу «фруктовый прилавок с бананами и киви». Источник: TechCrunch

Но пока что ее уровень далек от идеала, ведь в генерируемых изображениях до сих пор заметны неточности. Тем не менее, как сообщают в Microsoft, такое качество изображения в 3 раза лучше по сравнению с предыдущими разработками в этой области, и является знаковым достижением в имплементации технологий AI.

 

У нас есть еще кое-что для вас

Как шрифт влияет на конверсию? Типографика в UX дизайне

1599 слів про крафт-дизайн: як студія «Oupas!» створила космічний корабель за 4 дні

Дизайн-отдел в MacPaw:
тесты, аналитика, design thinking

Закентий Горобьёв и его полезные ископаемые

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: