Взгляните на то, как далеко Image Generation A.I. Пришел всего за 5 лет

Общая разведка

Взгляните на то, как далеко Image Generation A.I. Пришел всего за 5 лет

ДАЛЛ-И умеет создавать изображения только на основе текстовых описаний.

General Intelligence от OneZero - это сводка самых важных новостей недели в области искусственного интеллекта и распознавания лиц.

OpenAI зарабатывает репутацию разработчика некоторых из ИИ. самые футуристические прототипы отрасли.

Поддерживаемое Microsoft исследовательское подразделение теперь возглавляет основатель Y Combinator Сэм Альтман. Он наиболее известен своим мощным текстовым генератором GPT-3, но за последние несколько лет также создал роботизированную руку, которая научилась решать кубик Рубика, команду сверхчеловеческих киберспортивных алгоритмов, алгоритм, который Сочиняет убедительно человеческую музыку и алгоритмы, которые могут играть в игры и использовать инструменты для изучения сложных стратегий.

На прошлой неделе OpenAI выпустил DALL-E, A.I. система, которая может генерировать изображения на основе письменного текста. Например, на подсказку «кожаный кошелек в форме авокадо. кожаный кошелек, имитирующий авокадо », система может генерировать десятки итераций на основе идеи кожаного кошелька из авокадо.

Компания не сделала DALL-E, который представляет собой смесь имен Сальвадора Дали и WALL-E, доступной для общественности или даже для избранной группы разработчиков, которую она обычно приглашает для тестирования нового программного обеспечения, но примеры на ее веб-сайте показывают, что Система может создавать чрезвычайно реалистичные и детализированные изображения.

DALL-E разбирается в художественных стилях, включая иллюстрацию и пейзажи. Он также может создавать текст для обозначения зданий и разделения границ между эскизами и полноцветными изображениями одной и той же сцены. А.И. Исследователи называют такие далеко идущие возможности обобщением, что означает, что алгоритм не предназначен специально для какого-то одного вида задач или художественного стиля.

OpenAI приписывает мастерство алгоритму двум основным факторам. Во-первых, алгоритм огромен. Он использует ошеломляющие 12 миллиардов параметров, которые можно рассматривать как ручки, которые алгоритм поворачивает для настройки того, как он понимает идеи. Эти 12 миллиардов параметров позволяют узнать невероятную конкретность при анализе изображений и текста.

Затем эти изображения и текстовые материалы загружаются в алгоритм. И текст, и изображение переводятся в токены или текст, который легче понять алгоритму. OpenAI объясняет в своем сообщении в блоге о DALL-E, что токен похож на букву английского алфавита - они представляют концепции, фрагментированные способами, которые легче вычислить машине, и упорядоченные на языке, предназначенном для алгоритмов. Этот машинный алфавит содержит 16 384 маркера для текста и 8 192 маркера для изображений. Этот метод автоматического перевода текста, читаемого человеком, в машиночитаемый, называется моделью-преобразователем.

Когда алгоритму дается подпись или текст, сопровождающий изображение, он преобразуется в до 256 токенов, а изображение преобразуется в до 1024 токенов. Это позволяет алгоритму сопоставлять относительно небольшое количество вводимых текста с гораздо более сложным изображением.

Затем алгоритм учится, анализируя пары изображений и подписей. В ходе якобы миллионов итераций он связывает фрагменты текста с определенными характеристиками изображений. OpenAI не опубликовал размер этого набора данных или изображения, которые он содержит.

Компания не первая, кто пытается создать изображение из текста, и даже не первая попытка OpenAI. Это просто последняя и, по-видимому, наиболее эффективная версия алгоритмов этой категории. Хотя компания не опубликовала документ с описанием системы, создатели алгоритма цитируют предшественников DALL-E в своем блоге. Совершив визуальный тур по происхождению алгоритма, мы можем проследить, насколько далеко на самом деле зашла технология.

2016

Цитируемый OpenAI как документ, который активизировал текущие исследования в области генерации текста в изображение, этот документ из Мичиганского университета и Института Макса Планка использует генеративные состязательные сети, или GAN, для генерации изображений. Сети GAN работают, противопоставляя друг другу два алгоритма: один генерирует изображение, а другой отклоняет изображение, если оно не выглядит достаточно реальным.

2017

Год спустя исследователи из Университета Рутгерса, Университета Лихай и Китайского университета Гонконга использовали другой подход GAN, на этот раз сложив пары алгоритмов. Первая пара алгоритмов определяет форму и цвета сцены, а вторая пара уточняет детали.

2019

В 2019 году другая команда, в основном аффилированная с Microsoft, попробовала другой двухэтапный подход. Первым шагом было создание карты расположения объектов в сцене, а вторым шагом было использование этой карты в качестве ориентира для создания объектов, которые будут формировать желаемое изображение.

2020

А в конце прошлого года Институт Аллена А.И. Опубликованное исследование, в котором использовалась модель трансформатора, подобная той, что используется в OpenAI. Вместо того, чтобы стремиться к простому размеру модели, исследователи института Аллена полагаются на маскировку. В отличной статье, объясняющей статью более подробно, Карен Хао из MIT Tech Review описывает маскировку как скрытие разных слов в предложении и просьбу модели заполнить пробел. Научив алгоритм делать эти интуитивные прыжки, исследователи обнаружили, что качество генерации изображений значительно улучшилось.

Глядя на эти примеры прошлых исследований, становится очевидным, насколько DALL-E OpenAI действительно сильно продвинулся вперед. Современное состояние превратилось из ужасных капель в кресло из авокадо, которое обозреватель OneZero Оуэн Уильямс сказал, что он действительно купил бы. И если это не испугает поколение дизайнеров мебели, художников по изображениям и любого онлайн-художника, я не знаю, что бы это случилось.

Взгляните на то, как далеко Image Generation A.I. Пришел всего за 5 лет

Общая разведка