Критический анализ впечатляющего нового инструмента Google для преобразования текста в изображение

Синтез текста в изображение — это направление исследований в области мультимодального обучения, которое стало предметом многих последних достижений [1–4]. В этом обзоре основное внимание будет уделено статье «Фотореалистичные модели преобразования текста в изображение с глубоким пониманием языка» [1].

Здесь авторы пытаются достичь современного фотореализма и дать представление о более глубоком уровне понимания языка в рамках синтеза текста и изображения. Основным результатом этой статьи является модель под названием «Imagen», которая улучшает предыдущие модели синтеза текста в изображение в литературе [2–4].

Посмотреть и узнать больше об Imagen можно здесь!

Что такое диффузионная модель?

Как следует из названия статьи, Imagen — это диффузионная модель.

Вкратце, диффузионные модели являются примером генеративного ИИ, основанного на входных данных x⁰ и постепенном добавлении гауссовского шума на каждом уровне t, пока не будет достигнуто чистое представление шума x, где T — последний слой.

Это основано на неравновесной термодинамике, согласно которой состояния развиваются путем диффузии, чтобы быть однородными в течение достаточно длительного периода времени.

Диффузионные модели учатся обращать этот процесс вспять, пытаясь генерировать исходный x⁰ из x(где в данном случае x⁰ — изображение). См. рисунок выше для наглядного пособия в этом.

Целью модели является параметризация условной вероятности, описывающей процесс обратной диффузии на каждом шаге t:

где представление xᵗ⁻¹ (предыдущий временной шаг) получено из гауссова распределения, характеризуемого средним значением μ и ковариацией σ с веса модели θ.

Благодаря тому, что процесс диффузии сохраняет изображение на каждом этапе процесса шумоподавления, это приводит к более близкой связи между данными и предсказанием по сравнению с другими генераторами преобразования текста в изображение, не основанными на диффузии [4]. –7]. Результатом этого, как правило, является более фотореалистичный результат моделей, основанных на диффузии [1–3].

После того, как базовая модель диффузии используется для построения изображения размером 64 × 64 пикселей, Imagen затем использует две дополнительные модели диффузии сверхвысокого разрешения для выполнения повышающей дискретизации 64 × 64 → 256 × 256 → 1024 × 1024. Таким образом, конечным результатом является изображение с высоким разрешением 1024 × 1024 пикселей, подобное изображенному ниже!

Обратите внимание, что это изображение на самом деле из DALL-E 2 [2], так как у Google есть некоторые ограничения на Imagen! Идея та же, но, пожалуйста, убедитесь, что вы проверили документ Imagen для реальных изображений.

В этом обзоре будет представлен краткий обзор предыдущей работы, затем я соберу основные вклады и результаты, представленные авторами, и я обсужу эти вклады и выскажу свое личное мнение о работе.

Предыдущая работа

Уже несколько лет можно создавать изображения из текста, однако ранние работы трудились реалистично объединить несколько текстовых понятий в изображение [5–7].

Основываясь на этих недостатках, OpenAI выпустила DALL-E в [4], который может объединять несколько, казалось бы, несвязанных концепций в одно изображение построчно — с учетом текстовой подсказки и начала (первый ряд пикселей). ) изображения.

Менее чем через 12 месяцев OpenAI переформулировала свой подход к синтезу текста в изображение с помощью моделей распространения через GLIDE [3]. Авторы показали, что оценщики предпочли GLIDE за фотореализм и сходство заголовков в различных условиях, тем самым установив доминирование моделей распространения при преобразовании текста в изображение.

Наконец, в [2] DALL-E 2 совершенствует GLIDE, генерируя изображения с кодировкой, основанной на встраивании изображения, полученном из текстовой подсказки.

Обратите внимание, что за это время были сделаны и другие улучшения, однако я сосредоточился в первую очередь на трех основных вкладах, которые составляют основу Imagen [1].

Основные вклады

Архитектура

Подобно GLIDE [3] и DALL-E 2 [2], Imagen представляет собой диффузионную модель, которая по своей архитектуре очень близка к GLIDE (т. шум). Однако ключевое отличие Imagen заключается в том, что встраивания текста берутся из больших готовых языковых моделей (LM).

Одним из основных выводов [1] является то, что включение больших замороженных LM, которые обучены только текстовым данным, оказывается чрезвычайно полезным для получения текстовых представлений для синтеза текста в изображение.

Кроме того, авторы исследуют масштабирование текстового кодировщика и обнаруживают, что масштабирование размера LM значительно улучшает результаты больше, чем масштабирование модели распространения. Крайний левый график на рис. 4a в [1] обобщает этот результат, показывая, что T5-XXL LM [8] обеспечивает более высокое качество изображений (↓ показатель FID) и лучшую совместимость надписей (↑ показатель CLIP). .

Авторы также используют новую технику, позволяющую избежать насыщенных пикселей при создании изображений с руководством без классификатора.

Руководство по классификатору было введено для улучшения качества сгенерированных изображений с помощью предварительно обученной модели, которая подталкивает выходные данные во время тестирования, чтобы они были более точны по отношению к вводу текста [9].

Руководство без классификатора [10] устраняет необходимость в предварительно обученной модели, генерируя две выборки (выходные данные) из входного шума с обработкой текста и без нее.

Обнаружив разницу между этими двумя образцами в пространстве признаков, можно обнаружить влияние текста на создание изображения. Масштабируя этот текстовый эффект, генерация изображения может быть ориентирована на лучшее выравнивание изображения и текста (с разной силой направляющего веса w).

На данный момент все это не ново, однако одна проблема с этим руководством заключается в том, что когда w большое, пиксели могут стать насыщенными, а верность изображения ухудшается за счет лучшего изображения. -выравнивание текста. Поэтому авторы вводят динамическое пороговое значение, при котором насыщенные пиксели сдвигаются внутрь от [-1, 1] на различную величину, определяемую на каждом шаге выборки x ᵗ (следовательно, динамичный). Авторы заявляют о значительных улучшениях в фотореализме и выравнивании изображения и текста, что обеспечивает высокое качество создания изображений.

Наконец, что касается архитектуры модели, авторы предлагают новый вариант U-Net [11], который проще и более эффективен, чем предыдущие версии. Насколько я могу судить, ключевой модификацией является удаление уровней собственного внимания в моделях сверхвысокого разрешения из моделей U-Net из [11–12].

DrawBench

Еще одним важным вкладом в будущие исследования в области синтеза текста в изображение является выпуск DrawBench.

DrawBench — это набор «сложных» текстовых подсказок для тестов, которые исследуют способность моделей обрабатывать сложные понятия, такие как композиционность, кардинальность и пространственные отношения.

Идея этого выпуска состоит в том, чтобы предоставить оценочный тест, который включает в себя несколько очень странных текстовых подсказок, чтобы убедиться, что изображение никогда не существовало раньше. Следовательно, теоретически это должно подтолкнуть модели к пределу их воображения и возможностей для создания сложных изображений.

Количественные результаты

Количественные результаты, представленные авторами в [1], сравнивают и противопоставляют различные модели на текстовых подсказках COCO [15] и DrawBench.

Авторы обнаружили, что результаты оценки человека на DrawBench показывают сильное предпочтение Imagen при анализе попарных сравнений с моделями DALL-E 2 [2], GLIDE [3], скрытой диффузии [14] и VQ-GAN с управлением CLIP [13] ( рис. 3 в [1]). Эти результаты представлены в качестве меры выравнивания заголовка и верности.

Между тем, результаты проверочного набора COCO, похоже, не показывают такой большой разницы между разными моделями — возможно, поэтому авторы не останавливаются на них слишком долго.

Однако интересное наблюдение по набору данных COCO заключается в том, что Imagen имеет ограниченные возможности для создания фотореалистичных людей, хотя авторы не приводят качественных примеров того, насколько плохо Imagen создает людей.

Обсуждение

Во введении авторы [1] включают утверждение:

[Imagen обеспечивает] беспрецедентную степень фотореализма и глубокий уровень понимания языка при синтезе текста в изображение.

Исследуя первую половину этого утверждения, авторы представляют несколько качественных сравнений между изображениями, созданными Imagen и DALL-E 2. Они также предоставляют результаты экспериментов по оценке людей, в ходе которых людей просили выбрать наиболее фотореалистичное изображение из одной текстовой подсказки или подписи.

Еще до рассмотрения каких-либо результатов авторы немедленно привнесли в свой анализ некоторую степень субъективности, которая присуща экспериментам по оценке на людях. Поэтому к результатам, показанным в [1], следует относиться с осторожностью и со здоровым уровнем скептицизма.

Чтобы обеспечить некоторый контекст для этих результатов, авторы выбрали несколько примеров сравнения, показанных оценщикам, и включили их в Приложение (обязательно взгляните на них — для мотивации я добавил пример из DALL-E 2 выше).

Однако даже с этими примерами мне трудно сделать четкое суждение о том, какое изображение следует предпочесть. Учитывая скопированные примеры, показанные на рисунке выше, лично я считаю, что некоторые изображения, сгенерированные DALL-E 2, более фотореалистичны, чем изображения Imagen, что демонстрирует проблемы субъективности при сборе таких результатов.

Авторы решили спросить людей, оценивающих, "какое изображение более фотореалистично?" и каждая ли "подпись точно описывает изображение" в процессе оценки. Однако меня беспокоит непрерывный характер оценки этих показателей.

Например, если у нас есть два мультяшных изображения в пакете (которые предположительно не очень реалистичны) и оценщика просят выбрать одно. Что касается показателя фотореализма, выбранное изображение будет иметь тот же уровень реализма, что и гораздо более реалистичное изображение (то есть не мультфильм), выбранное из отдельной партии.

Очевидно, что между подписью к пакету изображений и уровнем фотореализма, которого можно достичь, существует некоторая взаимосвязь. Поэтому было бы интересно изучить взвешивание определенных текстовых подсказок в зависимости от сложности, чтобы попытаться создать более непрерывный показатель, который можно было бы агрегировать с большей надежностью.

Аналогичным образом, в случае выравнивания подписи оценщики выбирают один из трех вариантов категории, соответствует ли подпись сгенерированному изображению (да, несколько и нет). Эти экспериментальные результаты подтверждают вторую половину приведенной выше цитаты (заявив о глубоком уровне понимания языка).

Это правда, что для выравнивания заголовков можно утверждать, что существует более определенный ответ на вопрос, были ли отношения и понятия в текстовых подсказках захвачены при создании изображения ( меньше субъективизма, чем для фотореализма).

Тем не менее, я еще раз утверждаю, что здесь следует использовать более непрерывный показатель, такой как оценка соответствия от 1 до 10. Исходя из приведенного выше обсуждения, предположительно, различные уровни сложности всех подписей также проявляются в выравнивании нижней части подписи. Потенциально попросить оценщиков оценить сложность подписи или текстовой подсказки во время оценки было бы интересно изучить и помочь стандартизировать набор данных и показатели.

По мере развития этого направления исследований и создания изображений, которые становятся еще более впечатляющими и креативными, этот метод оценки, естественно, станет менее надежным (конечно, это хорошая проблема). Поэтому было бы здорово увидеть, как авторы обсуждают возможность задавать оценщикам более конкретные вопросы для оценки уровней креативности, композиционности, мощности и пространственных отношений, зафиксированных моделями.

В случае, если два сгенерированных изображения одинаково впечатляют, задав оценщику более конкретные вопросы, вы сможете определить производительность модели на этом очень высоком уровне.

Например, одним из приложений для преобразования текста в изображение является помощь в создании иллюстраций. Поэтому, безусловно, есть основания оценивать уровень креативности и вариативности. при интерпретации текстовой подсказки.

В примерах, показанных ранее, DALL-E 2 [2] интерпретирует очки в большем количестве способов, чем Imagen, следовательно, можно утверждать, что DALL-E 2 является более креативным. модель?

При таком рассмотрении результатов главным критическим замечанием статьи будет то, что выбранные показатели слишком сильно играют на сильных сторонах Imagen. Предположительно лучший показатель (метрика) хорошо работающей модели в разных приложениях будет отличаться в зависимости от приложения (т. е. бесплатных обедов не бывает!).

В связи с этим мне было бы интересно услышать мысли авторов о том, как тщательно оценить эти модели не только на достоверность и выравнивание заголовков.

Выпуск DrawBench обоснован в [1] как необходимый вклад в область исследований преобразования текста в изображение благодаря предоставлению всеобъемлющего набора сложных сценариев текстовых подсказок.

Хотя я согласен с большей частью этого, основываясь на обсуждении этого аргумента, я еще не уверен, что это всеобъемлющий эталонный тест. Если изучить DrawBench немного глубже, в него включено всего около 200 текстовых подсказок/заголовков в 11 категориях, что на первый взгляд кажется довольно маленьким.

Эта озабоченность только усиливается при сравнении с набором данных COCO [15], который включает 330 тыс. изображений с 5 подписями к каждому изображению в гораздо более широком спектре категорий. Лично я думаю, что авторам было бы полезно обсудить свои аргументы относительно того, почему они утверждают, что это всеобъемлющий набор.

В дополнение к этому, с быстрым развитием синтеза текста в изображение, я бы сказал, что DrawBench является движущейся целью в этой области. Поэтому было бы неплохо увидеть возможность адаптации или добавления к этим обсуждаемым подписям.

Кроме того, поскольку DrawBench представлен вместе с Imagen, у кого-то может возникнуть опасение относительно того, была ли какая-то избирательность при выборе 200 подсказок для получения преимущественных результатов на Imagen.

Еще раз, сравнивая разницу в результатах между Imagen и базовыми моделями при оценке COCO [15] и DrawBench, результаты для COCO кажутся намного ближе между моделями, чем для DrawBench (где Imagen, по-видимому, далеко выше всех базовых моделей).

Это может быть связано с тем, что DrawBench представляет собой естественно сложный набор подсказок, которые Imagen может обрабатывать из-за своего предварительно обученного LM, или может быть потому, что DrawBench смещается в сторону сильных сторон Imagen? Действительно, авторы допускают некоторую предвзятость при построении DrawBench, не включая людей в процесс создания изображений.

Наконец, легко критиковать исследование, когда модель (или код) еще не опубликована, особенно когда существует огромный потенциал для получения финансовой выгоды (о чем авторы не упоминают).

Тем не менее, я считаю, что социальное и этическое обоснование этого является одним из лучших вкладов в статью, и он подчеркивает необходимость какого-то управления при выпуске мощного программного обеспечения искусственного интеллекта с открытым исходным кодом.

В более широком смысле генеративные модели естественным образом отражают общество, что может быть выгодно для социальных исследовательских групп или даже правительств, если им будет предоставлен доступ к нефильтрованным версиям моделей. .

Заключение

Подводя итог, можно сказать, что авторы внесли значительный вклад в быстрорастущие успехи синтеза текста в изображение.

Хотя в настоящее время она недоступна для широкой публики (по социальным и этическим причинам), получившаяся в результате модель Imagen включает в себя новые методы, такие как использование готовых текстовых кодировщиков, динамическое пороговое значение и более эффективный U-Net. архитектуры для слоев базового и сверхвысокого разрешения.

Лично мне понравилось читать эту статью, и я считаю, что сделанный вклад представляет собой захватывающее и интересное развитие в этой области.

Однако, хотя результаты впечатляют, при более глубоком копании мне становится очевидным, что авторы склонны переоценивать Imagen и DrawBench. Поэтому будет интересно наблюдать (возможно, в будущих публикациях или от избранного контингента исследователей, которым разрешен доступ к Imagen) более обширную оценку моделей генерации текста в изображение.

Рекомендации

[1] - Читван Сахария, и др. др. Фотореалистичные модели распространения
преобразования текста в изображение с глубоким пониманием языка, arXiv:2205.11487, (2022).

[2] - Адитья Рамеш и др. др. Генерация иерархического текстового условного изображения с латентами CLIP, arXiv: 2204.06125, (2022).

[3] - Алекс Николь, и др. др. Glide: На пути к созданию и редактированию фотореалистичных изображений с помощью текстовых моделей распространения, arXiv: 2112.10741, (2021 г.).

[4] - Адитья Рамеш и др. др. Генерация текста в изображение с нулевым выстрелом, ICML, 8821–8831, PMLR, (2021).

[5] - Хань Чжан и др. др. Stackgan ++: синтез реалистичных изображений с помощью сложенных генеративных состязательных сетей, транзакции IEEE по анализу шаблонов и машинному интеллекту, 41 (8): 1947–1962, (2018).

[6] - Теро Каррас и др. др. Анализ и улучшение качества изображения стайлгана, Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов, 8110–8119, (2020).

[7] Марк Чен и др. др. Генеративное предварительное обучение по пикселям, ICML, 1691—1703, PMLR, (2020).

[8] - Колин Раффель и др. др. Изучение пределов трансферного обучения с помощью унифицированного преобразователя текста в текст, arXiv:1910.10683, (2019).

[9] — Прафулла Дхаривал и Александр Никол, Диффузионные модели превосходят GAN в синтезе изображений, NeurIPS, 34, (2021).

[10] — Джонатан Хо и Тим Салиманс, Руководство по распространению без классификатора, Семинар NeurIPS 2021 по глубоким генеративным моделям и последующим приложениям (2021).

[11] — Алекс Никол и Прафулла Дхаривал, Улучшенные вероятностные модели диффузии шумоподавления, ICML, 8162–8171, PMLR, (2021).

[12] - Читван Сахария, и др. др. Палитра: модели распространения изображений, arXiv: 2111.05826, (2021 г.).

[13] - Кэтрин Кроусон и др. др. VQGAN-CLIP: Генерация и редактирование изображений в открытом домене с подсказками на естественном языке, arXiv: 2204.08583, (2022).

[14] — Робин Ромбах и др. др. Синтез изображений высокого разрешения
с моделями скрытой диффузии, arXiv:2112.10752, (2021).

[15] - Цунг-И Лин, и др. др. Microsoft COCO: Общие объекты в контексте, Европейская конференция по компьютерному зрению, 740–755, Springer, (2014).

[16] — Кальвин Луо, Понимание моделей распространения: единая перспектива, arXiv: 2208.11970, (2022).