ИИ от Microsoft нарисовал птицу по текстовому описанию
ИИ-алгоритм от Microsoft смог нарисовать птицу, основываясь исключительно на текстовом описании. Причем, компьютер создал изображение с нуля, не выбирая подходящее из базы данных, пишет Engadget.
Появились ИИ-алгоритмы, которые могут определить, что изображено на фотографии с точностью 80%. Но что если попробовать поставить ему обратную задачу — нарисовать картину, исходя из текстовых описаний? В Microsoft, кажется, смогли взять эту планку. Исследователи компании «попросили» компьютер нарисовать «желтую птицу с черными крыльями и коротким клювом», и он нарисовал.
Рисунок выглядит на удивление точным и похож на фотографию, учитывая, что алгоритм не искал уже существующее изображение в базе данных, а создал его самостоятельно.
«Если вы отправитесь на Bing, и поищете птицу, то получите множество похожих картинок с птицей, но здесь фотографии создаются с помощью компьютера с нуля, пиксель за пикселем, — говорит глава исследовательской группы Сяодун Хэ. — Эти птицы могут не существовать в реальном мире — они всего лишь аспект воображения нашего компьютера».
Хотя нынешняя форма этой технологии рисования не идеальна, нетрудно представить себе будущее, где она может функционировать как помощник художников и дизайнеров интерьера или инструмент для улучшения фотографий на основе голосового ввода. В Microsoft идут дальше и видят применение своего алгоритма в анимационных фильмах, созданных компьютером исключительно по сценарию.
Команда начала исследования в области компьютерного зрения и обработки естественного языка с помощью CaptionBot, ИИ-системы, которая автоматически создает подписи к фотографиям. Затем исследователи создали систему, отвечающую на вопросы, связанные с изображениями под названием SeeingAI, которая может быть полезной для слепых.
Текущая технология состоит из двух частей: одна, Generative Adversarial Network (GAN), генерирует изображения, а другая, дискриминатор, оценивает их качество. CaptionBot обучался на парах изображений и подписей, которые подсказывают, как слова соотносятся с какими фотографиями.
Команда также создала математическое представление человеческого внимания, которое мы используем, когда рисуем картины, основываясь на сложных описаниях. «Внимание — это человеческое качество, мы же используем математику, чтобы сделать внимание вычисляемым», — говорит Хэ.
Источник: hightech.fm
Еще никто не комментировал данный материал.
Написать комментарий