Новости
Главная / Software / ИИ научился рисовать изображения по их текстовому описанию

ИИ научился рисовать изображения по их текстовому описанию

Скоро андроиды будут не только мечтать об электроовцах, но даже смогут изобразить их на холсте. На днях компания OpenAI, к основанию которой в своё время приложил руку Илон Маск, сообщила, что смогла обучить нейронную сеть создавать рисунки из коротких текстовых подписей. Это первое решение, когда ИИ создаёт сложное и связное визуальное представление, используя лишь короткое текстовое пояснение. Профессия художника-иллюстратора может исчезнуть.

Источник изображения: OpenAI

Источник изображения: OpenAI

Для графических представлений подписей компанией OpenAI обучено программное обеспечение Dall-E. Для обучения через нейросеть прогнали набор данных из 12 млрд изображений и их подписей, которые были найдены в Интернете. Результат обучения впечатлил даже создателей.

«Мы обнаружили, что он [Dall-E] обладает разнообразным набором возможностей, включая создание антропоморфных версий животных и объектов, комбинирует несвязанные концепции правдоподобными способами, рендерит текст и применяет преобразования к существующим изображениям», — написала компания. Ниже на иллюстрации представлен пример изображений, которые Dall-E нарисовал на базе двух текстовых сообщений, одно о детёныше дайконе (редисе) в балетной пачке выгуливающей собаку, а второе — о кресле в форме авокадо.

Иллюстрация маленькой редиски дайкон в балетной пачке, выгуливающей собаку, автор DALL-E

Иллюстрация маленькой редиски (дайкон) в балетной пачке, выгуливающей собаку, автор DALL-E

Кресло в форме авокадо, автор DALL-E

Кресло в форме авокадо, автор DALL-E

Программа Dall-E, сочетающая в своём названии имя художника-сюрреалиста Сальвадора Дали и имя мультяшного персонажа Wall-E, имеет в своей основе текстовый генератор под названием GPT-3 (Generative Pre-Training). Генератор GPT-3 компания OpenAI представила весной прошлого года и готовится к коммерциализации API для этой разработки. Система, обученная GPT-3, оказалась способной создавать связные тексты как для чат-ботов, так и виде развёрнутых статей на любую тематику. В дополнение к GPT-3 пакет Dall-E прошёл также обучение текстом и графикой, показав тот результат, который всем нам ещё предстоит осмыслить.

Разработчики из OpenAI признают, что Dall-E обладает «потенциалом значительного и широкого общественного воздействия», добавив, что компания «планирует проанализировать потенциальное влияние подобных Dall-E решений на определенные рабочие процессы и профессии, долгосрочные этические проблемы и другие вопросы, связанные с этой технологией».

Источник:


Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме