1. UP-DP: Неконтролирано бързо обучение за предварителен подбор на данни с визуално-езични модели (arXiv)

Автор: Xin Li, Sima Behpour, Thang Doan, Wenbin He, Liang Gou, Liu Ren

Резюме: В това проучване ние изследваме задачата за предварителен подбор на данни, която има за цел да избере екземпляри за етикетиране от немаркиран набор от данни чрез едно преминаване, като по този начин оптимизира производителността за недефинирани задачи надолу по веригата с ограничен бюджет за анотации. Предишните подходи за предварителен подбор на данни разчитаха единствено на визуални функции, извлечени от основни модели, като CLIP и BLIP-2, но до голяма степен пренебрегваха мощта на текстовите характеристики. В тази работа ние твърдим, че с подходящ дизайн съвместното пространство на характеристиките на визия и текст може да даде по-добро представяне за предварителен подбор на данни. За тази цел въвеждаме UP-DP, прост, но ефективен подход за бързо обучение без надзор, който адаптира модели на визуален език, като BLIP-2, за предварителен избор на данни. По-конкретно, със замразените параметри на BLIP-2, ние обучаваме текстови подкани за извличане на съвместните характеристики с подобрено представяне, осигурявайки разнообразна клъстерна структура, която покрива целия набор от данни. Ние обстойно сравняваме нашия метод с най-съвременния, използвайки седем набора от бенчмарк данни в различни настройки, постигайки до 20% увеличение на производителността. Интересното е, че подканите, получени от един набор от данни, демонстрират значителна възможност за обобщаване и могат да бъдат приложени директно за подобряване на извличането на функции на BLIP-2 от други набори от данни. Доколкото ни е известно, UP-DP е първата работа, която включва незабавно обучение без надзор във визуален езиков модел за предварителен подбор на данни

2. Засаждане на SEED на визия в голям езиков модел (arXiv)

Автор: Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang, Ying Shan

Резюме: Представяме SEED, сложен токенизатор на изображения, който дава възможност на големите езикови модели (LLM) с нововъзникващата способност да ВИЖДАТ и да рисуват едновременно. Изследванията на токенизаторите на изображения преди това са стигнали до задънена улица, тъй като рамки, използващи квантувани визуални токени, са загубили известност поради неравностойно представяне и конвергенция в мултимодално разбиране (в сравнение с BLIP-2 и т.н.) или генериране (в сравнение със стабилна дифузия и т.н.). Въпреки ограниченията, ние оставаме уверени в неговия естествен капацитет да обедини визуални и текстови представяния, улеснявайки мащабируемо мултимодално обучение с оригиналната рецепта на LLM. В това проучване ние идентифицираме два ключови принципа за архитектурата и обучението на SEED, които ефективно улесняват последващото привеждане в съответствие с LLMs. (1) Токените на изображенията трябва да бъдат независими от позициите на 2D физически пластири и вместо това да се произвеждат с 1D причинно-следствена зависимост, проявяваща присъща взаимозависимост, която е в съответствие с механизма за авторегресивно предсказване отляво надясно в LLM. (2) Токените на изображенията трябва да улавят семантика на високо ниво, съответстваща на степента на семантична абстракция в думите, и да бъдат оптимизирани както за разграничаване, така и за реконструкция по време на фазата на обучение на токенизатора. В резултат на това готовият LLM е в състояние да изпълнява едновременно генериране на изображение към текст и текст към изображение чрез включване на нашия SEED чрез ефективна настройка на LoRA. Цялостното мултимодално предварително обучение и настройка на инструкциите, които могат да доведат до подобрени резултати, са запазени за бъдещо разследване. Тази версия на SEED беше обучена за 5,7 дни, използвайки само 64 GPU V100 и 5 милиона публично достъпни двойки изображение-текст. Нашето предварително проучване подчертава големия потенциал на дискретните визуални токени в многостранни мултимодални LLM и значението на правилните токенизатори на изображения в по-широко изследване