новини
Появился бот, который создает изображения по словесному описанию
19 січня, 2018

Microsoft представила «рисующего бота», который создает изображения, основываясь на описании объектов. Для его разработки была применена технология искусственного интеллекта: бот не только следует описанию, но и добавляет детали от себя.

Изображение, созданное по запросу «желтая птица с черными крыльями и коротким клювом». Источник: Microsoft

По словам Ксядонга Хе, главного исследователя Центра глубокого обучения лаборатории Microsof в Рендмонде (Вашингтон), рисунок птицы, созданный ботом, отличается от того, что можно найти в поисковых системах. Нарисованной птицы может в принципе не существовать в природе. Ее изображение создано с нуля и основано на представлении бота о птице.

Он может создавать как изображения типичных сцен, подобно тех, что можно купить на фотостоке, так и абсурдные несуществующие сценарии.

В основе бота — технология GAN (Generative Adversarial Network). Это сеть, состоящая из двух моделей машинного обучения. Первая генерирует изображения из текстового описания, а вторая — дискриминатор — оценивает его реалистичность. Генератор заинтересован в утверждении картинки дискриминатором, который не даст себя одурачить. Вместе модели доводят изображение до возможного идеала.

Бота обучали на базах данных, в которых содержатся парные изображения и кэпшны. Они дают возможность моделям научиться совмещать слова с их визуальным представлением. Например, GAN учится не только генерировать картинку птицы, когда в кэпшне указано «птица», но и запоминать, как птица должна выглядеть.

Изображение, созданное по запросу «это красная с белым птица с очень коротким клювом». Источник: TechCrunch

Технология хорошо работает с простым описанием объекта (например, «синяя птица»). Качество немного страдает с более детальным описанием (например, «птица с зеленой головой, желтыми перьями и красным животиком»). Причина в том, что все предложение генератор воспринимает как один инпут.

Создатели говорят, что технология генерации текста в картинку может стать основой для дизайнерских приложений. Например, программы ассистента для создания скетчей для художников или дизайнеров интерьеров. Или же инструмента для улучшения фото с помощью голоса. По словам исследователя Хе, в будущем технология сможет генерировать анимационные фильмы, основываясь на сценариях.

Изображение, созданное по запросу «фруктовый прилавок с бананами и киви». Источник: TechCrunch

Но пока что ее уровень далек от идеала, ведь в генерируемых изображениях до сих пор заметны неточности. Тем не менее, как сообщают в Microsoft, такое качество изображения в 3 раза лучше по сравнению с предыдущими разработками в этой области, и является знаковым достижением в имплементации технологий AI.

 

У нас є ще дещо для вас

переклад
Проектирование checkout формы: Закулисье.
Часть I
Статті
Видеолекции: Навигация в городе
Игорь Скляревский
Статті
Игорь Новиков:
«Google Pixel 2 — убийца IPhone»
Игорь Новиков

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: