Дълги къси трансформатори

Въведение и преглед

Кратък преглед на най-новите ефективни трансформатори, дълъг-къс трансформатор. Мотивацията зад това е, че искаме да извършим тази операция за внимание върху по-дълги входни последователности. Повечето от тези преобразуватели за обработка на естествен език могат да приемат като вход само 512 токена и ние искаме да ги разширим, за да приемат може би цяла научна статия като вход или може би цял правен документ или цялата пикселна мрежа от изображения като вход. Така че искаме да можем да присъстваме на повече от 512 токена и това е проблематично поради изчислението n² на текущия дизайн на слоя за внимание. Така че изследователите излязоха с тези различни дизайни, като пристъпено внимание в редките трансформатори или да кажем някакъв вид локален прозорец или някакъв вид редуващ се модел на маскиране на пространствената решетка на матрици на заявки и стойности. Имаме и проекции с нисък ранг, като разлагането на сингулярна стойност (SVD), което може да разложи, да речем, матриците на стойността на ключ на заявката в най-изявения диагонален ред, за да го компресира и да има умножение с повече информация или можем да имаме проекциите с нисък ранг като този документ, където имате параметризация за компресиране на матриците на стойността на ключ на заявката във векторно пространство и след това накрая имаме повтаряне като трансформатор xl или компресивен трансформатор, където добавяте скритото състояние идеята да се присъедини към последните 512 токена и да се компресира в скритото състояние при t и след това следващите 512 токена в скрито състояние t+1 да се върнат обратно към скритото състояние на t. Това са някои от тези идеи за това как можем да присъстваме на повече от 512 символа, за да приемем по-дълги входове за трансформатори. Нека обсъдим тези методи, споменати по-горе.

Напрегнато/оскъдно внимание

Тази идея за разкрачено оскъдно внимание, тази концепция е взета от редките трансформаторни „хартии“ от отворения изкуствен интелект, това е авторегресивната задача, при която маскирате бъдещите входове, това би бил начин, при който или задавате локален прозорец. Така че разглеждате само последните пет последователни цикъла или отивате нагоре с това как индексирате пространствената решетка на проекцията на матрицата на стойността и след това има други идеи, като например да имате по-разреден модел. Така че не е съседен като този и и така тези други начини на проектиране, рядкото внимание, локалният прозорец, върху който да се приложи вниманието, вместо да се прави пълното умножение на матрицата.

Прогнози от нисък ранг

Във внимание имаме тези параметризации, които раздуват входната последователност в матрици на ключ и стойност на заявката и след това тези матрици на матрицата могат да се умножат заедно, за да извършат обработката на изчислението на вниманието, така че може да сме в състояние да вземем тези матрици на заявката в ключа или стойностни матрици и ги разлагайте в най-видния ред и в тази техника като разлагане на единична стойност, където можете да го компресирате в този диагонал и след това просто може би да умножите диагоналите един по друг.

Повторение

Трансформаторна архитектура, използваща повтаряне, еTransformer-XL (което означава много дълга), това е трансформаторна архитектура, която въвежда понятието за повторение в мрежата за дълбоко самовнимание. Вместо да изчислява скритите състояния от нулата за всеки нов сегмент, Transformer-XL използва повторно скритите състояния, получени в предишни сегменти. Повторно използваните скрити състояния служат като памет за текущия сегмент, който изгражда повтаряща се връзка между сегментите. В резултат на това моделирането на много дългосрочна зависимост става възможно, тъй като информацията може да се разпространява чрез повтарящи се връзки. Като допълнителен принос, Transformer-XL използва нова формула за относително позиционно кодиране, която се обобщава за дължини на вниманието, по-дълги от тези, наблюдавани по време на обучение.

Дълго краткосрочно внимание

Така че идеята зад това ново дългосрочно краткосрочно внимание е да се комбинират изходите от краткосрочен слой на вниманието с крачки с динамична трансформация на матрица на проекция с нисък ранг. Задържането на слоевете се стреми само към това филтрирано ядро, а не към цялото умножение на стойностен ключ, има тези локални прозорци, които трябва да бъдат разгледани, а след това динамичната проекция е мястото, където вземате проекцията на ключовата матрица, компресирате я с матрица за тегло, която взема m ✕ n матрица в n ✕ k, където k е по-малко от m или n ✕ n. Така че след това го транспонирате и след това го умножавате по оригиналната стойност или нещо подобно, но го компресирате с тази операция за параметрично компресиране, така че е нещо като тази низходяща семплиране, например когато имате крачка навивка и десемплирате слоевете, така че кажете, че върви от 32 на 32 надолу до 30 и 30 тези видове идеи за компресиране на представянето с претеглено матрично умножение. И така, следващата голяма идея е въвеждането на тези двуслойни стратегии за нормализиране, за да се комбинират двата различни изхода.

В статията те описват как тези резултати от краткосрочното задържане и проекционното внимание от нисък ранг имат различни мащаби, така че е трудно просто да ги свържем (както е показано по-горе) и да нямаме това несъответствие на общото като средна стойност и дисперсия параметри, да речем, ако е нормално разпределен, но като цяло мащабът на тези параметри ще бъде твърде различен от краткосрочното и дългосрочното задържане, така че трябва да приложите някои специални нормализации на слоевете (LNG и LNL) за обединяване на мащаба на тези функции за по-нататъшно изчисление за подреждане на това заедно и създаване на гигантски трансформатор от него.

Бенчмарк на арена за дълги разстояния

Виждаме резултат при използването на трансформатора, дългобрежния трансформатор, представящ се по-добре от тези други модели като реформатор и на тези тестове на арена с голям обхват, както и сравнителни тестове за езиково моделиране на крайния набор от данни на wiki и след това показване на броя на параметрите с трансформатора- LS и след това сложността, която постига.

Заключение

Надявам се от този блог да успеете да добиете бърза представа за тази идея за придвижено внимание, което според тях има краткотрайно внимание, защото това пристъпено внимание локално внимание в прозореца в сравнение с тази динамична проекция дългосрочно задържане и след това комбиниране на това чрез използването на тази нормализация на слоя и като цяло само състоянието на този ефективен трансформаторен дизайн продължава да напредва и това е много вълнуваща област на изследване, възможността да присъстваш при по-дълги входове би позволило повече приложения, така че благодаря за четенето и моля, следете за още.

Ако ви е харесала тази статия и сте придобили проницателни знания, помислете за „да ми купите кафе☕️като щракнете тук“. 🤤

Препратки

„Дълъг-къс трансформатор: Ефикасни трансформатори за език и зрение.“
„Генериране на дълги последователности с редки трансформатори.“
„Transformer-XL: Внимателни езикови модели отвъд контекст с фиксирана дължина.“

Ако тази публикация ви е харесала, моля, не забравяйте да ръкопляскате 👏. 💬 Свързване? Нека станем социални: http://myurls.co/nakshatrasinghh.