Какво представляват големите езикови модели (видът модели, които захранват chatgpt)?

Това е първата от серия от няколко части, изследваща вълнуващи нови разработки в областта на изкуствения интелект. Предназначен е за всеки, който се опитва да разбере по-задълбочено тънкостите на големите езикови модели и техните последици. Ще проучим следното:

Какво представляват големите езикови модели (LLM) и дифузионните модели?
Текущ пейзаж на LLM
Случаи на използване за LLM
Скорошна история на LLM
Какво следва? Какво означава това за света като цяло? Какво означава това за софтуер, продукт, данни?

Част 1: Какво представляват големите езикови модели?

Основни положения

Преди да навлезем в големите езикови модели, ще разгледаме някои основи. Термините машинно обучение и изкуствен интелект често се използват взаимозаменяемо, но имат някои разлики. Изкуственият интелект е всяка техника, която имитира хората. Машинното обучение е процес на обучение на машини да се учат от данни без изрични инструкции или програмиране. В машинното обучение има множество подполета: класическо машинно обучение и дълбоко обучение. За целите на тази серия ще се съсредоточим върху задълбоченото обучение. Дълбокото обучение е машинно обучение с огромно количество данни и алгоритми, наречени невронни мрежи. Невронните мрежи, според името им, са вдъхновени от структурата и функцията на човешкия мозък.

Следната диаграма илюстрира припокриването между тези полета.

Всеки проект за машинно обучение включва следните 3 стълба:

Данни
Модели
Инфраструктура

С развитието на областта на машинното обучение всеки стълб стана по-усъвършенстван. Например в инфраструктурата, освен изчисления за обучение и изпълнение на модел, има разрастваща се област на MLops, която да помогне за предоставянето на по-добра представа за ML моделите, както и за управление на внедрявания, предоставяне на възможности за наблюдение, позволяване на „обясним AI“ и т.н.

Това е подобно на това, което вече се е случило със софтуера през последните няколко десетилетия и това, което се е случило с хардуера през много десетилетия преди това. Съвременният софтуер и хардуер са оборудвани със „сензори“, които предоставят представа за това как този софтуер и хардуер се представят.

Назад към големите езикови модели

Добре, така че сега, след като разгледахме някои от основите, нека да преминем към вълнуващите неща, какво представляват големите езикови модели (накратко LLM)?

LLM са невронни мрежи (видове модели за дълбоко обучение), които са проектирани с помощта на трансформаторната архитектура и са обучени на много голямо количество данни. Има много различни видове невронни мрежи (предаване, конволюционни невронни мрежи, повтарящи се невронни мрежи и много други). Трансформаторите са най-новият вид.

В случай, че се интересувате от по-доброто разбиране на невронните мрежи, ето подробна аналогия за това как невронните мрежи работят с любезното съдействие на LLM:

Аналогия с кошница с плодове

Нека използваме по-проста аналогия на група хора, опитващи се да отгатнат теглото на кошница с плодове, за да обясним как работи една проста невронна мрежа.

Входен слой: Кошницата с плодове съдържа различни видове плодове, като ябълки, портокали и банани. Всеки вид плод представлява вход в невронната мрежа.

Скрити слоеве: Всеки човек в групата използва свой собствен метод за оценка на теглото на кошницата с плодове въз основа на броя на всеки вид плодове. Тези хора представляват невроните в скрития(те) слой(ове) на невронната мрежа.

Функции за активиране: Всеки човек решава дали да сподели или не своята оценка въз основа на нивото на доверие. В невронната мрежа този процес на вземане на решение е представен от функции за активиране.

Тегла и пристрастия: Групата определя различни нива на важност на оценката на всеки човек въз основа на тяхната точност в миналото. В невронната мрежа тези нива на важност са представени чрез тегла и отклонения.

Изходен слой: Групата комбинира оценките на всички и излиза с окончателно предположение за теглото на кошницата с плодове. В невронната мрежа това е представено от изходния слой, който комбинира информацията от скрития(те) слой(ове), за да произведе крайната прогноза.

Обучение и учене: За да подобри точността на отгатването, групата се учи от минал опит и коригира важността, която придава на оценката на всеки човек. В невронната мрежа този процес на обучение включва коригиране на теглата и отклоненията, за да се сведе до минимум грешката между прогнозите на мрежата и действителните резултати.

В обобщение, една проста невронна мрежа работи много като група хора, които отгатват теглото на кошница с плодове. Те обработват входната информация (видове плодове), прилагат собствената си преценка (функции за активиране) и важност (тегла и отклонения) и комбинират оценките си, за да направят окончателна прогноза. Мрежата непрекъснато се учи и подобрява ефективността си с течение на времето.

По-долу е изображение, което показва някои често срещани типове невронни мрежи.

Има много различни видове невронни мрежи. Най-доминиращите типове невронни мрежи в компютърното зрение са CNN. В зависимост от „задачата“, която трябва да бъде изпълнена, различни архитектури може да са по-подходящи за нея.

Моделите за машинно обучение обикновено са организирани по задача и домейн. Графиката по-долу е от huggingface и показва безбройните задачи по категория и домейн и свързаните с тях модели.

В зависимост от поставената задача, различни модели може да са по-подходящи за нея. Например, в компютърното зрение за задачата за класифициране на изображения, „vit-base“ на Google може да бъде правилният начин. При обработка на естествен език за задачата за отговаряне на въпроси, моделът „roberta-base“ може да бъде добър избор.

Тъй като определени типове архитектури са по-подходящи за обучение върху по-големи набори от данни (известни още като Transformers), те са станали добри в много различни задачи. Те също така обикновено се наричат основни модели, като се има предвид тяхното свойство да служат като солидна основа за толкова много задачи. Това е, което виждаме при модели като gpt3 и gpt4, където те могат да изпълняват множество задачи доста добре извън кутията.

И така... какво представляват трансформаторите?

Визуализацията по-долу показва новата архитектура на трансформаторите в сравнение с тази на CNN.

Новата концепция, въведена в трансформаторите, беше идеята за вниманието. Това може да се види визуално по-горе в това как всеки елемент в трансформатор е свързан с всеки друг елемент, за разлика от предишните архитектури на невронни мрежи.

Трансформърите бяха открити от изследователи в Google и споделени със света чрез документ от 2017 г., наречен „Вниманието е всичко, от което се нуждаете“. Тяхната определяща характеристика е способността да добавят относително внимание.

Обичам аналогиите, така че ако използваме същия сценарий като този по-горе и го адаптираме за трансформатори, ето какво получаваме:

Използвайки аналогията с кошницата с плодове, нека опишем разликите между всеки от различните типове невронни мрежи:

Предварителна невронна мрежа (FF): Всеки човек в групата оценява теглото на кошницата с плодове въз основа на видовете плодове, без да отчита каквито и да е връзки между плодовете. Те предават оценките си на следващия човек в редицата, който ги комбинира и прави окончателна прогноза. Няма обратна връзка или разглеждане на последователността или структурата на плодовете в кошницата.

Конволюционна невронна мрежа (CNN): Всеки човек може да види само малка част от кошницата с плодове (локален прозорец) и трябва да направи своята оценка въз основа на този ограничен изглед. Те плъзгат прозореца си по протежение на кошницата, отбелязвайки връзките между плодовете в техния изглед. CNN улавят локални модели, но може да пропуснат зависимости от по-дълъг обхват.

Повтаряща се невронна мрежа (RNN): Един човек започва, като разглежда първия плод в кошницата и прави първоначална оценка. Те предават оценката си и кошницата на следващия човек, който актуализира оценката въз основа на следващия плод, като взема предвид предишната оценка. Този процес продължава последователно, като всеки човек взема предвид предишната оценка и следващия плод в кошницата. RNN могат да улавят последователни връзки, но се борят с дългосрочни зависимости.

Дълга краткосрочна памет (LSTM): Подобно на RNN, процесът на оценка протича последователно, но всеки човек има по-добра система за памет, която му позволява избирателно да запомня и забравя информация за предишни плодове. Това помага на LSTM да улавят зависимости с по-дълъг обхват в сравнение с обикновените RNN.

Generative Adversarial Network (GAN): Две групи хора участват в този процес. Едната група, генераторът, създава фалшиви кошници с плодове, докато другата група, дискриминаторът, се опитва да направи разлика между истинските и фалшивите кошници с плодове. Групата генератор подобрява своите фалшиви кошници с плодове въз основа на обратната връзка от дискриминатора, докато дискриминаторът става по-добър в идентифицирането на фалшификати. Процесът продължава, докато фалшивите кошници с плодове станат почти неразличими от истинските.

Трансформатор: Всеки човек може да види цялата кошница с плодове наведнъж и да оцени съотношението между всички плодове в кошницата, независимо от техните позиции. Това им позволява да разберат по-добре цялостната структура и зависимости в рамките на данните. Трансформаторите улавят ефективно както къси, така и далечни зависимости чрез механизма за самовнимание.

В обобщение, използвайки аналогията с кошницата с плодове, всеки тип невронна мрежа има уникален подход за разбиране и оценка на теглото на кошницата с плодове, въз основа на видовете плодове, техните взаимоотношения и последователността, в която са подредени. Feedforward мрежите се фокусират върху отделни видове плодове, CNN разглеждат локални модели, RNN и LSTM обработват последователността стъпка по стъпка, GAN включват генератор и дискриминатор, които се състезават да създадат реалистични кошници с плодове, а Transformers анализират цялата последователност наведнъж, използвайки самовнимание .

Примери за големи езикови модели

Най-популярният пример е gpt или генеративен предварително обучен трансформатор. Този модел захранва вирусния openAI разговорен продукт, наречен „chatgpt“.

Други примери включват Bert и T5.

Нова ера

LLM са само началото. Предстои още много, тъй като изследователите продължават да разширяват границата на това, което си представяме, че е възможно.

Това наистина придава нов смисъл на популярния цитат на Бил Гейтс „Винаги надценяваме промяната, която ще настъпи през следващите две години, и подценяваме промяната, която ще настъпи през следващите десет“.

Тази публикация едва надраска повърхността на машинното обучение и големите езикови модели, но се надяваме, че послужи като въведение към това, което е под капака на тази нова технология, която разтърсва света.

След това ще проучим текущия пейзаж за LLM и кои са основните играчи.

Ако сте любопитни да научите повече за невронните мрежи, вижте любимия ми обяснител от 3blue1brown: https://www.youtube.com/watch?v=aircAruvnKk&t=1010s

Оригиналният блог на Google, където започна: https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

Източници

Трансформатори за обработка на естествен език, Денис Ротман
Обработка на естествен език с трансформатори, Луис Тунстал, Леандро фон Вера, Томас Улф

Какво представляват големите езикови модели (видът модели, които захранват chatgpt)?

Примери за големи езикови модели

Нова ера

Подобни въпроси