Преди да започна основната статия, позволете ми да дам малко контекст: OpenAI наскоро говори за пускането на своя GPT 3 модел. За тези от вас, които не са наясно с GPT моделите, те са невероятно добри в генерирането на текст – по-добре от много хора, които може би познавате.

Въпреки че обикновено не е известен с музикалния си талант, Илън Мъск издава дебютен албум в четвъртък, който съчетава най-отличителните звуци от неговата музика с набора от техники и техники, които го направиха един от най-обсъжданите и успешни предприемачи на нашето време. И въпреки цялото медийно внимание, което 73-годишният състезател привлече през последните месеци, по-младите поколения от неговите поддръжници от Силициевата долина може да кажат, че той е направил точно това, което очакваха – той превзе света на автомобилните състезания. „Определено има кросоувър [точка между Tesla и музиката]“, казва Крис Харман, който отговаря за големи лейбъли и лейбъли в Sony Music Entertainment.

Не се притеснявайте, горният текст не е изваден от контекста — по-скоро беше нещо, генерирано от модела GPT 2. Човек може сериозно да се чуди на пълния обхват на този модел и като изследователски ентусиаст, устата ми просто се сълзи, като гледам кода, който са предоставили, и техния модел. И този модел имаше „само“ 1,5 милиарда параметри, което, когато го сравните с предишни SOTA архитектури като BERT (340M) параметри, изглежда много. Това може да изглежда леко над горния десен ъгъл? Защо, по дяволите, ще ви трябват 1,5B параметри, когато изследванията показват, че е възможно да имате значително по-малко параметри, за да постигнете подобни резултати (DistilBERT). На този въпрос OpenAI даде много силен отговор — като пусна (не пуска точно, както ще обясня по-нататък) наследника и третия в тяхната серия GPT, GPT 3, със сто седемдесет и пет милиарда параметъра. по дяволите Не мога да си представя необходимите изчислителни ресурси и времето, необходимо за обучение на тези много параметри.

Моделът е супер страхотен. Той буквално издухва (или поне се конкурира) със SOTA по много различни мерки - отговор на затворена книга, генериране на текст (очевидно), машинен превод, дори проклетите аритметични приложения; Мога да продължа, но въпросът е, че е достатъчно добър. Но, и това е голямо но, времето за обучение е експоненциално. Текущият най-бърз графичен процесор е Tesla V100. Любопитни факти: Познайте колко време би отнело обучението на модела на най-бързия наличен GPU онлайн. Приключихте с предположенията? Освен ако не сте гадаели на случаен принцип, за да ми докажете, че греша, числото, което сте познали, е доста под знака. 355 години — точно така — 355 години е сумата, необходима за обучението на целия модел на един Tesla V100 (максималната FP16 производителност на Tesla V100 е 28 TFLOPS. Ще ви позволя да направите изчисленията за необходимите нетни FLOPs.) Цената за обучение на този модел с помощта на Lambda cloud GPU ще бъде? (познайте?) 4,6 милиона долара. (очевидно това е тренировка в продължение на 355 години. Писателят просто е прекалено по драматичните ефекти и глупавите скоби.)

Еха. А сега си представете, че сте нефинансиран изследовател (под нефинансиран в момента имам предвид няколко Tesla V100. Хаха. Дори без да се вземат предвид бедни хора като мен) и се опитвате да обучите собствената си архитектура, за да я сравните с GPT 3, BERT и т.н. . Би било буквално невъзможно да се изгради общ модел, който да надмине тези горили, и дори ако се съсредоточите върху някаква нишова задача, ще бъде наистина лесно да възпроизведете вашите метрични резултати с тези видове параметри, като ги настроите фино към вашата задача. .

Въпреки това има някои добри новини. Ако сте индивидуален изследовател, страхотно. Пригответе се да дадете малко пари, защото моделът не е с отворен код. Да, прочетохте това правилно (отново той продължава с драматичните ефекти). Организация с единствената цел да продължи изследванията реши да предостави търговски API за модела. По принцип никога няма да имате кода, с който да експериментирате, и всички ваши задачи ще бъдат наблюдавани чрез API. Сега OpenAI има наистина добър случай за комерсиализиране на този модел. GPT 3 се представя плашещо добре в ежедневните задачи и може лесно да се използва за онлайн тормоз, кибертормоз, убедителен спам и т.н. Ако сте били объркани от частта на Илон Мъск и сте си помислили, че може да е написана от човек, тя вече успешно ви е измамила . И това беше моделът GPT 2, един с буквално два порядъка по-ниска величина от своя наследник. Така че комерсиализирането му може да има смисъл за обикновените потребители, всъщност мнозина може да го сметнат за необходимо.

Знам, че бях солен за голяма част от статията и има донякъде добра причина за това. Като човек, който наистина се интересува от НЛП, никога няма да мога да разгледам кода, нито да получа модела за изследване, което наистина ме прави супер разочарован. И това е целият смисъл на тази статия - това е лаф, защото съм супер разочарован, че не мога да проуча този модел. И знаете ли какво ме дразни още повече? GPT 3 можеше да напише по-добра статия от мен с по-добър речник и граматика, но сега никога няма да разберем, защото моделът е комерсиализиран.

Препратки:

https://openai.com/blog/openai-api/
https://arxiv.org/abs/1910.01108
https://lambdalabs.com/blog/demystifying- gpt-3/