Искусственный интеллект научили создавать рисунок по текстовому описанию (1 фото)

12 января 2021

Программное обеспечение DALL E способно создавать изображения на основе короткого текстового описания.

Система искусственного интеллекта DALL E названа по имени сюрреалиста Сальвадора Дали и робота Валли-И из мультика Pixar. Она представляет собой версию алгоритма обработки языковых символов GPT-3 с 12 миллиардами параметров, обученную генерировать изображения по текстовым описаниям с использованием набора данных из пар текст-изображение.

Система обладает разнообразными возможностями, включая создание антропоморфных версий животных и объектов, визуализацию текста и преобразование существующих изображений. Среди рисунков, созданных DALL E и приведенных в качестве примеров, — различные варианты изображений «маленькой редьки дайкон в балетной пачке, выгуливающей собаку», «кресла в форме авокадо» и другие иллюстрации.

Для того, чтобы проиллюстрировать фразу «ежик в красной шляпе, желтых перчатках, синей рубашке и зеленых штанах» требуется правильно скомпоновать каждый предмет одежды с животным и сформировать связи предмета с цветом (шляпа, красный), (перчатки, желтый), (рубашка, синий), и (штаны, зеленый). Отмечается, что результат зависит от того, как именно сформулировано описание, заложенное в нейросеть.

Кроме того, вероятность успеха зависит от количества различных деталей. «По мере увеличения числа объектов DALL E начинает путать, какой цвет следует дать тому или иному предмету, и результативность резко снижается»

Специалисты OpenAI признают, что подобные генерирующие модели могут оказать значительное влияние на общество. В будущем компания планирует проанализировать, как модели, подобные DALL E, связаны с социальными проблемами, такими как экономическое воздействие на определенные рабочие процессы и профессии. В том числе будут изучаться возможные долгосрочные этические проблемы, связанные с этой технологией.