Запознайте се с Muse — следващото поколение AI модел за преобразуване на текст към изображение, който променя играта! С използването на дискретни токени и значително по-малко итерации на вземане на проби, Muse е по-ефективен от предишните модели за дифузия в пикселно пространство като Imagen и DALL-E 2. Този усъвършенстван AI модел генерира фотореалистични изображения от текстови описания със забележителна точност. С потенциала си да революционизира индустрии от маркетинг и реклама до дизайн на видеоигри и други, силата на Muse е неоспорима. Прочетете, за да откриете бъдещето на генерираните от AI изображения с Muse.

Въведение

Авторите представят нов модел, Muse, за синтез на текст към изображение, който използва моделиране на маскирано изображениеподход. Декодерът на изображения е обусловен от вграждания от предварително обучен T5-XXL енкодер за голям езиков модел, което води до висококачествени и фотореалистични изображения. Резултатите, получени с Muse, са в съответствие с предишната работа на Imagen, показвайки значението на предварително обучени големи езикови модели за генериране на изображения. Моделите, с изключение на квантователя VQGAN, са базирани на архитектурата Transformer.

Muse е модел за генериране на текст към изображение, който отразява различни части на речта във входните надписи, като съществителни, глаголи и прилагателни. Моделът също демонстрира разбиране на свойствата на множество обекти, включително композиция и кардиналност, и стил на изображение. Обучението на Muse, базирано на маски, позволява няколко възможности за редактиране на изображения с нулева снимка. Примерните изображения, генерирани от Muse, могат да се видят на фигура 1.

Авторите на тази работа са направили следния принос в областта на генерирането на текст към изображение:

  1. Най-съвременен модел с високи FID и CLIP резултати
  2. По-бърза производителност в сравнение със сравними модели с използването на квантувани изображения и паралелно декодиране
  3. Вградени възможности за редактиране с нулев изстрел, включително рисуване, рисуване и редактиране без маска.

Модел

Този раздел предоставя общ преглед на различните компоненти на модела MUSE за генериране на текст към изображение.

Първият компонент е двойка VQGAN модели на токенизатори, един за резолюция 256x256 („ниска разделителна способност“) и друг за разделителна способност 512x512 („висока разделителна способност“), които могат да кодират входно изображение към поредица от отделни токени и също така да декодират токен последователност обратно към изображение.

Вторият компонент е основният маскиран модел на изображение, който съдържа по-голямата част от параметрите и взема поредица от частично маскирани токени с ниска разделителна способност, като прогнозира маргиналното разпределение за всеки маскиран токен, докато се обуславя от немаскираните токени и T5XXL вграждане на текст.

Третият компонент е трансформаторният модел „superres“, който превежда немаскираните токени с ниска разделителна способност в токени с висока разделителна способност, също обусловени от вграждане на текст T5-XXL.

Семантична токенизация с помощта на VQGAN

Моделът използва семантични токени, получени от модел VQGAN (Векторно квантизирана генерираща състезателна мрежа), за да картографира входни изображения в последователности от токени от научена кодова книга. Този модел VQGAN се състои от енкодер и декодер със слой за квантуване и е изграден изцяло с конволюционни слоеве за обработка на изображения с различни разделителни способности. Авторите обучиха два VQGAN модела, един с коефициент на понижаване на дискретизацията 16 и друг с коефициент на понижаване на дискретизацията 8, за да получат токени съответно за своите модели с базова и супер разделителна способност. Получените токени след кодиране улавят семантиката на високо ниво на изображението и имат дискретна природа, която позволява използването на загуба на кръстосана ентропия за прогнозиране на маскирани токени.

Базов модел

Базовият модел е маскиран трансформатор, който приема като вход проектираните T5 вграждания и токени за изображения. Текстовите вграждания остават немаскирани, докато различна част от токените за изображения се маскират и се заменят със специален [MASK] токен. Токените на изображението се картографират във вграждания за въвеждане на изображение с помощта на линейно картографиране заедно с 2D позиционни вграждания. Моделът използва няколко трансформиращи слоя, включително блок за самостоятелно внимание, блок за кръстосано внимание и блок за MLP за извличане на функции. Изходният слой използва MLP, за да преобразува всяко вграждане на маскирано изображение в набор от логистики и се прилага загуба на кръстосана ентропия с етикета на токена на основната истина като цел. Базовият модел е обучен да предсказва всички маскирани токени на всяка стъпка, но за извод, предсказването на маската се извършва итеративно, което подобрява качеството.

Модел със супер разделителна способност

Моделът е фокусиран върху детайли на ниско ниво върху широкомащабна семантика при директно предсказване на разделителна способност 512x512, така че вместо това се използва каскада от модели: базов модел, който генерира латентна карта 16x16, и модел със супер разделителна способност, който повишава основната карта до латентна карта 64x64. Бяха обучени два VQGAN модела, единият с разделителна способност 16x16, а другият с разделителна способност 64x64, и процедурата за супер разделителна способност се научава да "превежда" картата с по-ниска разделителна способност в картата с по-висока разделителна способност, последвано от декодиране чрез VQGAN с по-висока разделителна способност, за да даде крайното изображение с висока разделителна способност. Моделът за превод на латентна карта се обучава с кондициониране на текст и кръстосано внимание по начин, подобен на основния модел.

Социално въздействие

Моделът Muse е модел за генериране на текст към изображение, който използва предварително обучен голям езиков модел като мощен текстов кодер. Моделът показва отлично съответствие между изображение и текст и превъзхожда други модели, но авторите признават потенциала за вреда с генеративните модели и предупреждават да не ги използват, без да вземат предвид различните случаи на употреба и потенциала за вреда, особено за поколението хора, хора, и лица. Авторите също така отбелязват етичните съображения за използване на големи набори от данни, които могат да отразяват негативни социални стереотипи и пристрастия, както и необходимостта от допълнителни изследвания за това как да се смекчат такива пристрастия в наборите от данни.

Благодарим ви, че отделихте време да прочетете тази статия. Надявам се да е било информативно и провокиращо размисъл. Ако ви хареса и искате да сте в течение за бъдещата ми работа, каня ви да ме последвате в LinkedIn и Medium. Тези платформи са чудесен начин да останете свързани, да споделяте идеи и да продължите разговора. Очаквам с нетърпение да се свържа с вас и да споделям повече съдържание в бъдеще! Благодарим ви за вашата подкрепа!