Критичен анализ на впечатляващия нов инструмент на Google за генериране на текст към изображение

Синтезът на текст към изображение е изследователска посока в областта на мултимодалното обучение, което е обект на много скорошни постижения [1–4]. Този преглед ще се фокусира върху статията „Фотореалистични модели на дифузия на текст към изображение с дълбоко разбиране на езика“ [1].

Тук авторите се опитват да постигнат най-съвременния фотореализъм и да осигурят представа за по-задълбочено ниво на разбиране на езика в рамките на синтеза от текст към изображение. Основният резултат от тази статия е модел, наречен „Imagen“, който подобрява предишните модели за синтез на текст към изображение в литературата [2–4].

Можете да видите и разберете повече за Imagen тук!

Какво е дифузионен модел?

Както подсказва заглавието на статията, Imagen е модел на дифузия.

Много накратко, моделите на дифузия са пример за генеративен AI, базиран на приемане на вход x⁰ и постепенно добавяне на шум на Гаус на всеки слой t докато се достигне представяне на чист шум x, където T е крайният слой.

Това е вдъхновено от неравновесната термодинамика, при която състоянията се развиват чрез дифузия, за да бъдат хомогенни предвид достатъчно дълъг период от време.

Дифузионните модели се научават да обръщат този процес в опит да генерират оригиналния x⁰ от x(където в този случай x⁰ е изображение). Вижте фигурата по-горе за визуална помощ в това.

Целта на модела е да параметризира условната вероятност, описваща процеса на обратна дифузия на всяка стъпка t:

където представянето на xᵗ⁻¹ (предишната времева стъпка) се извлича от гаусово разпределение, характеризиращо се със средно μ и ковариация σ с тегла на модела θ.

Благодарение на процеса на дифузия, който запазва изображението на всяка стъпка в процеса на премахване на шума, това води до по-интимна връзка между данните и прогнозата в сравнение с други генератори на текст към изображение без дифузия [4 –7]. Резултатът от това като цяло е по-фотореалистичен изход от базирани на дифузия модели [1–3].

След като се използва основен модел на дифузия за конструиране на изображение с размери 64 × 64 пиксела, Imagen след това използва два допълнителни модела на дифузия на супер разделителна способност за извършване на дискретизация 64 × 64 → 256 × 256 → 1024 × 1024. Следователно крайният резултат е изображение с висока разделителна способност 1024 × 1024 пиксела, като това по-долу!

Имайте предвид, че това изображение всъщност е от DALL-E 2 [2], тъй като Google има някои ограничения за Imagen! Идеята е същата, но моля, не забравяйте да проверите хартията Imagen за действителните изображения.

Този преглед ще предостави кратко описание на предишната работа, след това ще компилирам заедно основните приноси и резултати, представени от авторите, и ще обсъдя тези приноси и ще предоставя личните си мнения за работата.

Предишна работа

Възможно е да се реализират изображения от текст в продължение на няколко години, но ранната работа се бори да комбинира реалистично множество текстови концепции в изображение [5–7].

Въз основа на тези недостатъци, OpenAI пусна DALL-E в [4], който е в състояние да комбинира множество привидно несвързани понятия в едно изображение ред по ред — дадена е текстова подкана и началото (първият ред от пиксели ) на изображение.

По-малко от 12 месеца по-късно OpenAI преформулира своя подход към синтеза на текст към изображение с дифузионни модели чрез GLIDE [3]. Авторите показаха, че GLIDE е предпочитан от човешки оценители за фотореализъм и прилика на надписи в различни настройки, като по този начин установяват доминирането на моделите на дифузия при генерирането на текст към изображение.

И накрая, в [2], DALL-E 2 допълнително подобрява GLIDE чрез генериране на изображения с кодиране, базирано на вграждане на изображение, намерено от текстовата подкана.

Обърнете внимание, че в този времеви период бяха направени и други подобрения, но аз се фокусирах основно върху три основни приноса, които формират основата за Imagen [1].

Основни приноси

Архитектура

Подобно на GLIDE [3] и DALL-E 2 [2], Imagen е дифузионен модел, който изглежда много близък по своята архитектура до GLIDE (т.е. приема вграждане на текст като вход и генерира изображения от шум). Въпреки това, ключова разлика в Imagen е, че текстовите вграждания се намират от големи готови езикови модели (LM).

Едно от основните открития на [1] е, че включването на големи замразени LM, които са обучени само върху текстови данни, се оказва изключително полезно при получаване на текстови представяния за синтез на текст към изображение.

В допълнение към това авторите изследват мащабирането на текстовия енкодер и откриват, че мащабирането на размера на LMs подобрява значително резултатите повече от мащабирането на размера на дифузионния модел. Най-лявата графика на фигура 4a в [1] обобщава този резултат, като показва, че T5-XXL LM [8] постига изображения с по-високо качество (↓ FID резултат) и по-добра съвместимост на надписи (↑ CLIP резултат) .

Авторите също така включват нова техника за избягване на наситени пиксели при генериране на изображения с насоки без класификатор.

Указанията за класификатора бяха въведени, за да се подобри качеството на генерираните изображения чрез предварително обучен модел, който натиска изхода по време на теста да бъде по-верен на въведения текст [9].

Указанията без класификатор [10] избягват тази необходимост от предварително обучен модел чрез генериране на две проби (изходни данни) от входния шум, със и без кондициониране на текст.

Чрез намиране на разликата между тези две проби в пространството на характеристиките е възможно да се открие ефектът от текста при генерирането на изображение. Мащабирайки този текстов ефект, генерирането на изображение може да бъде насочено към по-добро подравняване на изображение-текст (с различна сила на насочващото тегло w).

Засега нищо от това не е ново, но един проблем с това ръководство е, че когато w е голямо, пикселите могат да станат наситени и точността на изображението се влошава за сметка на по-доброто изображение -подравняване на текст. Следователно авторите въвеждат динамично прагово определяне, чрез което наситените пиксели се изтласкват навътре от [-1, 1] чрез различни количества, определени при всяка стъпка на вземане на проби x ᵗ (следователно е динамичен). Авторите заявяват значителни подобрения във фотореализма и подравняването на изображение-текст за високи насоки при генерирането на изображения.

И накрая, от страна на архитектурата на модела, авторите предлагат нов вариант на U-Net [11], който е по-прост и по-ефективен от предишните итерации. От това, което мога да кажа, ключовата модификация е премахването на слоевете за самовнимание в моделите със супер разделителна способност от U-Net моделите от [11–12].

DrawBench

Друг важен принос към бъдещите изследвания в синтеза на текст към изображение е пускането на DrawBench.

DrawBench е колекция от „предизвикателни“ текстови подкани за бенчмарк за оценка, които изследват способността на моделите да се справят със сложни концепции като композиция, кардиналност и пространствени отношения.

Идеята зад тази версия е да се предостави еталон за оценка, който включва някои много странни текстови подкани, за да се гарантира, че изображението никога не е съществувало преди. Следователно на теория това би трябвало да доведе моделите до границите на тяхното въображение и възможности за генериране на сложни изображения.

Количествени резултати

Количествените резултати, представени от авторите в [1], сравняват и контрастират различни модели на COCO [15] и текстови подкани на DrawBench.

Авторите установяват, че резултатите от човешка оценка на DrawBench показват силно предпочитание към Imagen при анализиране на сравнения по двойки с DALL-E 2 [2], GLIDE [3], Latent Diffusion [14] и CLIP-насочвани VQ-GAN [13] модели ( Фигура 3 в [1]). Тези резултати се предоставят като мярка за подравняване на надписите и точност.

Междувременно резултатите от набора за валидиране на COCO изглежда не показват толкова голяма разлика между различните модели - което потенциално е причината авторите да не се спират на тях твърде дълго.

Въпреки това, интересно наблюдение върху набора от данни COCO е, че Imagen има ограничена способност да генерира фотореалистични хора — въпреки че авторите не предоставят никакъв качествен пример за това колко лош е Imagen в генерирането на хора.

Дискусия

Във въведението авторите на [1] включват твърдението:

[Imagen предоставя] безпрецедентна степен на фотореализъм и дълбоко ниво на разбиране на езика при синтеза на текст към изображение.

Разследвайки първата половина на това твърдение, авторите представят няколко качествени сравнения между изображения, генерирани от Imagen и DALL-E 2. Те също така предоставят резултати от експерименти с човешка оценка, при които хората бяха помолени да изберат най-фотореалистичното изображение от единичен текстов ред или надпис.

Дори преди да разгледат каквито и да е резултати, авторите незабавно въведоха известна степен на субективност в своя анализ, която е присъща на експериментите за оценка на хора. Следователно резултатите, показани в [1], трябва да се разглеждат внимателно и със здравословно ниво на скептицизъм.

За да осигурят известен контекст на тези резултати, авторите избират някои примерни сравнения, показани на хора оценители, и ги включват в Приложението (определено ги разгледайте — за мотивация добавих пример от DALL-E 2 по-горе).

Но дори и с тези примери ми е трудно да направя ясна преценка кое изображение трябва да бъде предпочетено. Имайки предвид копираните примери, показани на фигурата по-горе, лично аз вярвам, че някои от генерираните изображения от DALL-E 2 са по-фотореалистични от Imagen, което демонстрира проблемите със субективността при събиране на резултати като тези.

Авторите избират да попитат оценителите „кое изображение е по-фотореалистично?“ и дали всеки „надпис точно описва изображението“ по време на процеса на оценяване. Въпреки това прекъснатият характер на оценката на тези показатели е доста тревожен за мен.

Например, ако имаме две карикатурни изображения в партида (които вероятно не са много реалистични) и оценителят е помолен да избере едно. Що се отнася до метриката за фотореализъм, избраното изображение ще има същото ниво на реализъм като много по-реалистично изображение (т.е. не карикатура), избрано от отделна партида.

Очевидно има известно взаимодействие между надписа за група изображения и нивото на фотореализъм, което може да бъде постигнато. Следователно би било интересно да се проучи претеглянето на определени текстови подкани въз основа на трудност, в опит да се създаде по-непрекъснат показател, който може да бъде обобщен по-надеждно.

По подобен начин в случай на подравняване на надписи, оценяващите избират между три категорични опции дали надписът е подравнен с генерираното изображение (да, донякъде и не). Тези експериментални резултати се опитват да подкрепят втората половина на цитата по-горе (заявявайки дълбоко ниво на разбиране на езика).

Вярно е, че за подравняването на надписи може да се твърди, че има по-окончателен отговор дали връзките и концепциите в текстовите подкани са били уловени при генерирането на изображение ( по-малко субективизъм, отколкото при фотореализма).

Въпреки това бих казал още веднъж, че тук трябва да се използва по-непрекъснат показател, като например 1–10 рейтинг на подравняване. Следвайки дискусията по-горе, вероятно различните нива на трудност във всички надписи ще се проявят и в долното подравняване на надписите. Потенциално искането на оценители да оценят трудността на надписа или текстовата подкана по време на оценка би било интересно да се проучи и да помогне за стандартизирането на набора от данни и показателите.

Тъй като тази линия на изследване се развива и генерираните изображения стават още по-впечатляващи и творчески, този метод на оценка естествено ще стане по-малко надежден (разбира се, това е добър проблем). Следователно би било страхотно да видим авторите да обсъждат потенциала за задаване на по-конкретни въпроси на оценителите, за да оценят нивата на креативност, композиция, кардиналност и пространствени отношения, уловени от моделите.

В случай, че две генерирани изображения са еднакво впечатляващи, задаването на по-специфични въпроси на оценяващия може да помогне да се разграничи представянето на модела на това много високо ниво.

Като пример, едно от приложенията за генериране на текст към изображение е да подпомага генерирането илюстрации. Следователно със сигурност има някакво основание да се оцени нивото на креативност и вариация при интерпретиране на текстова подкана.

В примерите, показани по-рано, DALL-E 2 [2] интерпретира 'очила' по повече начини от Imagen, следователно може да се твърди, че DALL-E 2 е по-креативният модел?

Когато разглеждате резултатите по този начин, основната критика на статията би била, че избраните показатели се отразяват твърде много на силните страни на Imagen. Най-добрата индикация (метрика) за добре работещ модел в различни приложения вероятно ще бъде различна в зависимост от приложението (т.е. няма безплатен обяд!).

Поради това ще ми е интересно да чуя мислите на авторите за това как да стриктно оценя тези модели за повече от просто вярност и подравняване на надписи.

Издаването на DrawBench е оправдано в [1] като необходим принос към полето за изследване на текст към изображение поради предоставянето на всеобхватен набор от предизвикателни сценарии за текстови подсказки.

Въпреки че съм съгласен с повечето от това, въз основа на дискусията около този аргумент, все още не съм убеден, че това е всеобхватен показател. Ако някой изследва DrawBench малко по-задълбочено, са включени само около 200 текстови подкани/надписи в 11 категории, което изглежда доста малко на пръв поглед.

Тази загриженост се задълбочава само при сравняване с набора от данни COCO [15], който включва 330K изображения с 5 надписа на изображение в много по-голямо разнообразие от категории. Лично аз смятам, че би било добре авторите да обсъдят своите обосновки защо твърдят, че това е всеобхватен набор.

В допълнение към това, с бързия напредък в синтеза на текст към изображение, бих казал, че DrawBench е подвижна мишена в областта. Ето защо би било хубаво да се обсъди възможността за адаптиране или добавяне към тези надписи.

Освен това, тъй като DrawBench е представен с Imagen, има място за някои притеснения относно това дали е имало някаква селективност при избора на 200 подкани, за да се получат преференциални резултати на Imagen.

Още веднъж, сравнявайки разликата в резултатите между Imagen и базовите модели при оценка на COCO [15] и DrawBench, резултатите за COCO изглеждат много по-близки между моделите от тези за DrawBench (където Imagen е привидно далеч преди всичко базови модели).

Това може да се дължи на това, че DrawBench е естествено по-труден набор от подкани, с които Imagen може да се справи благодарение на своя предварително обучен LM, или може да се окаже, че DrawBench е предубеден към силните страни на Imagen? Наистина, авторите признават известно пристрастие при конструирането на DrawBench, като не включват хора в генерирането на изображения.

И накрая, лесно е да се критикува изследването, когато моделът (или кодът) не е пуснат, особено когато има огромен потенциал за финансова печалба (което авторите не споменават).

Вярвам обаче, че социалната и етична обосновка зад това е един от най-добрите приноси от статията и такъв, който подчертава необходимостта от някакъв вид управление при пускане на мощен AI софтуер с отворен код.

В по-широк смисъл, генеративните модели естествено държат огледало към обществото, което може да бъде полезно за социални изследователски групи или дори правителства, ако им бъде даден достъп до нефилтрирани версии на модели .

Заключение

За да обобщим, авторите са направили значителен принос за бързо нарастващите успехи в синтеза на текст към изображение.

Въпреки че в момента не е достъпен за обществеността (поради социални и етични причини), полученият модел „Imagen“ включва нови техники като използване на готови текстови енкодери, динамично определяне на прагове и по-ефективна U-Net архитектури за базови и супер разделителни слоеве.

Лично аз се забавлявах да чета този документ и вярвам, че направените приноси са вълнуващи и интересни разработки в областта.

Въпреки това, докато резултатите са впечатляващи, когато се заровя по-дълбоко, за мен е очевидно, че авторите са склонни да прекомерно продават Imagen и DrawBench. Следователно ще бъде интересно да се наблюдава (може би в бъдеща публикация или от избран контингент изследователи с достъп до Imagen) по-обширна оценка на моделите за генериране на текст към изображение.

Препратки

[1] — Chitwan Saharia, et. ал. Фотореалистични дифузионни модели от текст към изображение
с дълбоко разбиране на езика, arXiv:2205.11487, (2022).

[2] — Aditya Ramesh, et. ал. Генериране на йерархично текстово условно изображение с CLIP латенти, arXiv:2204.06125, (2022).

[3] — Алекс Никол и др. ал. Плъзгане: Към генериране и редактиране на фотореалистични изображения с модели на дифузия, управлявани от текст, arXiv:2112.10741, (2021).

[4] — Aditya Ramesh, et. ал. Нулево генериране на текст към изображение, ICML, 8821 — 8831, PMLR, (2021).

[5] — Han Zhang, et. ал. Stackgan++: Реалистичен синтез на изображения с подредени генеративни състезателни мрежи, IEEE транзакции за анализ на модели и машинен интелект, 41(8):1947–1962, (2018).

[6] — Теро Карас и др. ал. Анализиране и подобряване на качеството на изображението на stylegan, в сборника на конференцията IEEE/CVF за компютърно зрение и разпознаване на образи, 8110 — 8119, (2020).

[7] Марк Чен и др. ал. Генеративно предварително обучение от пиксели, ICML, 1691 — 1703, PMLR, (2020).

[8] — Колин Рафел и др. ал. Изследване на границите на трансферното обучение с унифициран трансформатор от текст към текст, arXiv:1910.10683, (2019).

[9] — Prafulla Dhariwal и Alexander Nichol, Дифузионните модели побеждават GAN при синтез на изображения, NeurIPS, 34, (2021 г.).

[10] — Джонатан Хо и Тим Салиманс, Ръководство за дифузия без класификатор, В семинара NeurIPS 2021 за дълбоки генеративни модели и приложения надолу по веригата, (2021 г.).

[11] — Alex Nichol и Prafulla Dhariwal, Подобрени вероятностни модели за обезшумяване на дифузия, ICML, 8162–8171, PMLR, (2021).

[12] — Chitwan Saharia, et. ал. Палитра: Модели на дифузия от изображение към изображение, arXiv:2111.05826, (2021).

[13] — Катрин Кроусън и др. ал. VQGAN-CLIP: Генериране и редактиране на изображения на отворен домейн с насоки на естествен език, arXiv:2204.08583, (2022).

[14] — Робин Ромбах и др. ал. Синтез на изображение с висока разделителна способност
с модели на латентна дифузия, arXiv:2112.10752, (2021).

[15] — Tsung-Yi Lin, et. ал. Microsoft COCO: Общи обекти в контекста, в Европейската конференция за компютърно зрение, 740 — 755, Springer, (2014).

[16] — Калвин Луо, Разбиране на дифузионните модели: Единна гледна точка, arXiv:2208.11970, (2022).