Transformers — Rise of the New Beasts: 100% субективен тест на системите AI21, ALEPH ALPHA, MUSE срещу GPT-3 — с невероятни резултати.

През последните няколко месеца някои обещаващи езикови модели се пуснаха на живо, предизвиквайки GPT-3. Тествах няколко от тези платформи и им хвърлих данни. Винаги с въпроси като: Могат ли други модели да се конкурират с GPT-3? Или дори са по-добри?

Всички платформи имат специфични функции, някои от които са трудни за сравняване: като например способността за генериране и разбиране на програмен код, обработка на таблици, подобна на SQL, или покриване на конкретни езици - езиковият модел на Muse е много силен на френски, например. За да направя честно сравнение, направих някои основни тестове в областта на общите познания, както и способността да се правят логически заключения. Езикът на теста беше английски.

Моделите трябваше да отговарят на въпроси, които изискват общи познания. Например, те трябва да класифицират историческо събитие или да назоват компонентите на устройствата и машините и как работят. В допълнение, моделите също трябва да прилагат това знание, например, в случай на велосипед, те трябва да определят кои части са необходими, за да може велосипедът да продължи да се движи.

Тествах само LLMs, които имат публичен (API, Playground) и гъвкав достъп до хостван модел.

Кратко представяне на платформите:

Museе езиков модел от базираната в Париж стартираща компания LightOn, която получи финансиране от близо 4 милиона долара. Muse има фокус върху европейските езици.

Aleph Alpha е стартираща компания от Хайделберг в Южна Германия. Aleph Alpha събра почти 30 милиона долара от рисков капитал. В допълнение към много добър интерфейс за чиста реч, Aleph Alpha има способността да обработва мултимодален вход.

AI21 Labs е базирана в Тел Авив стартираща компания и последно е получила финансиране през юли 2022 г. Общо компанията събра 118 милиона долара. Платформата, разработена от AI21, беше един от първите GPT-3 конкурентни модели, които бяха публично достъпни и можеха да се доближат до OpenAi по отношение на качеството.

GPT-3 от OpenAI в Сан Франциско е LLM, който вероятно направи най-голям фурор през последните години и е един вид златен стандарт за езикови модели. Ще се въздържа от допълнителни обяснения.

Ето преглед на участниците в малкото състезание, включително конкретни модели и тестови настройки.

Но какво все пак е голям езиков модел?

Големи езикови модели са системи, които обикновено имат специфична архитектура (трансформатор) и са обучени с гигабайти и терабайти текстове от интернет (напр. Wikipedia). Въз основа на тези данни те извличат вероятностите за последователности от думи. По принцип тези машини могат да предвидят как ще продължи поредица от думи, изречение, история, разговор. И това се основава само на техния гигантски набор от данни за обучение. Следователно всичко, което могат да правят и знаят, не се съхранява в графа на знания, която определя факти, правила, връзки между обекти. Вместо това тези модели работят с вероятностите, с които отделните токени (думи или части от думи) следват един след друг. Когато говоря за „знание“ или „разсъждение“ или използвам подобни термини от когнитивната сфера по-долу, моля, имайте предвид този факт. Alexa, която включих в моето тестване като пример за класическа платформа за реч, базирана на правила, отговаря на въпроси чрез картографиране на намерение на изказване с база данни или търси в Google отговори от мрежата.

Размерът има значение: Размерът на модела (брой параметри) и размерът на набора от данни за обучение играят съществена роля, заедно с редица други фактори. Моделите трябва да имат над 100 милиарда параметри и данни за обучение във високия диапазон от гигабайти или терабайти, преди наистина да могат да осигурят добро качество.

Тестът: общи познания и прости разсъждения

Карам моделите да се състезават един срещу друг, като тестват знанията си за света и способността си да разсъждават. Този тест е решаващ базов тест. Моделите, които го издържат, могат да се използват за различни индивидуални приложения: например отговаряне на въпроси на клиенти, анализиране и обобщаване на текстове и автоматично обработване на имейли. Този тест е специално разработен за Големи езикови модели: Класически базирани на правила езикови системи като Alexa отпадат след определена сложност на въпросите и вече не могат да отговарят на тях. Попитах Alexa, като най-напредналия класически езиков модел, същите въпроси, за да сравня възможностите на различните платформени архитектури.

Подкана

За да уведомите моделите как работи тестът на първо място, има кратко въведение в подканата, която предхожда всеки тестов диалог и показва как изглежда структурата на въпросите и отговорите — в това въведение въпросите И отговорите са от потребител (от мен):

Отговорете на въпросите.
Човек: Защо обектите падат по-бавно на Луната, отколкото на Земята?
AI: Защото Луната има по-малко гравитация
Човек: Кога първата кола излезе на улицата ?
AI: 1886
Човек: Когато се върнах в апартамента си една вечер, всички стаи бяха в пълен безпорядък. Чекмеджетата бяха извадени, съдържанието лежеше на пода, столовете бяха преобърнати, шкафовете претършени. Какво може да се е случило?
AI: Възможно е крадци да са били в апартамента и да са търсили ценности.
Човек: Джон не харесва Ани. Ани е доста неутрална към Пат. Каква е връзката на Пат с Джон?
AI: Не мога да кажа въз основа на предоставената информация.
Човек: Защо повечето бразилци говорят португалски?
AI: Защото това е официалният език на Бразилия.
Човек: И защо е така?
AI: Това е официалният език, защото Бразилия е била португалска колония от 1500 до 1822 г.
Човек: [ТУК ИДВА КОНКРЕТНИЯТ ВЪПРОС, КОЙТО ИСКАМЕ ТЕСТВАЙТЕ МОДЕЛА, напр. „Каква част от велосипед бихте могли да премахнете, докато карате, без велосипедът да спре?“]
AI: [ПРАЗЕН … МОДЕЛЪТ ЩЕ ПРИЛОЖИ ОТГОВОРА СИ ТУК, напр. „педалите“]

Подканата показва желания формат въпрос-отговор. Той предоставя примери за това как моделът може да отговори директно на въпрос или да влезе в диалог с множество кръгове и да включи контекста на предишния въпрос (пример за Бразилия). Той също така показва как моделът трябва да отговори, когато не знае отговора или когато липсват данни.

Сега да започнем с тестовете:

1) Факти

Всеки от тези въпроси има един или повече точно правилни отговори. Всеки модел трябва да може да отговори на тези въпроси.

  • Първите три модела отговарят правилно на въпроса.
  • Препратката на GPT-3 към гравитацията заслужава допълнителна златна звезда.
  • Muse, наистина, "Север?"
  • Alexa търси в Google отговор и отговаря с нещо напълно грешно.

  • Muse и тук не отговаря много убедително.
  • Останалите модели отговарят правилно на въпроса.
  • Alexa би намерила правилен отговор на преформулиран въпрос „Как наричате роднина, който е син на брат ми?“. Тя обаче не може да отговори на наистина простия въпрос по-горе.

  • С изключение на Muse, всички модели могат да отговорят правилно на този много специфичен въпрос за филм от 1995 г. Имайте предвид, че тези модели повече или по-малко могат да отговорят на повечето въпроси относно актьорския състав и съдържанието на всички разумно важни филми в западния свят. И разбира се, също и за книги, химични елементи, астрономически обекти, живи същества или физически уравнения.
  • Alexa също така намира правилното съдържание тук, от което след това може да бъде извлечен отговорът на въпроса.

  • Всички модели се представят много добре на въпросите за тревоядни животни и животни, които ядат тревоядни животни.
  • Повечето модели обаче не могат да отговорят на въпроса „Кои животни ядат животни, които ядат трева?“ без да са му задавали въпроса преди това.
  • Алекса намира само един вид животно в отговора си на втория въпрос, но все пак.

  • Повечето модели също отговарят правилно на тези два въпроса.
  • AI21 има проблеми с батерията.
  • Тя откри, че Алекса отнема много време, за да обясни същия проблем с интернет котировките. Тя е малко погрешна в аналогията, но не и напълно погрешна.

2) Меко знание/разумни оценки

Отговорите на следните въпроси не могат да бъдат дадени с чисто фактическо знание. Тук трябва да се направи извод или да се направи оценка. Възможни са различни отговори, няколко могат да бъдат правилни до известна степен.

  • Три модела отговориха повече или по-малко правилно на въпроса. Да, по принцип можете да премахнете педалите и седалката на движещ се велосипед, но това изисква акробатика - затова раздавам само 3 от 5 златни звезди.
  • Alexa предоставя отговор от велосипеден форум за това как да коригирате скърцане. Това са глупости.
  • Предложението на Muse за премахване на предното колело по време на каране е твърде опасно за мен: само една точка.
  • Скъпи модели, защо не изберете звънеца?

  • AI21 изброява няколко събития, които биха могли да имат нещо общо с революцията. Юлската революция беше през 1830 г., около 40 години по-късно, така че това не може да е причина за Френската революция. Освен това моделът е забит в примка в края. Въпреки това, това е единственият модел, който цитира Просвещението - не е зле.
  • Aleph Alpha изброява причините по структуриран начин, но думата „серия“ принадлежи към първата точка. Фактът, че отговорът в точка 3 е отрязан, се дължи на броя токени, които раздадох на модела - така че това е моя грешка.
  • GPT-3 носи сложен отговор, който е правилен, макар и донякъде общ - той се прилага за почти всяка революция.
  • От Muse в Париж, на 5 км до Бастилията, бих очаквал повече прозрения. Отговорът не е напълно грешен, но много липсва.
  • Alexa се откроява с подбран отговор, който този път е напълно правилен и наистина отговаря точно на въпроса: Страхотно! Това показва: Ако отговорът на въпрос може да бъде перфектно написан, качеството на този отговор може да бъде изключително високо в класическа система за реч, базирана на правила.

Интернет потребителите или сайтовете за филми почти винаги отговарят на този въпрос с Епизод 5 (Империята отвръща на удара) или понякога Епизод 4 (Нова надежда). Въпреки че теоретично това е въпрос на вкус, тук почти няма човек, който да посочи Епизод 3 като най-добрия епизод.

  • Следователно отговорът на Алекса е изненадващ
  • и Aleph Alpha е на място.
  • AI21 започва да отговаря правилно (епизод „4, 5“), но след това преминава към просто броене. Тук завършването на модела работи твърде много въз основа на собствената му продукция.
  • Отговорът на GPT-3 е подвеждащ. GPT-3 не може да е видял нито един от епизодите, защото дори няма интерфейс за видео вход.
  • Muse няма мнение по темата, което не е полезно, но добре.

Всичко това са страхотни отговори.

  • GPT-3 отговаря донякъде като учебник и поне втората част (работно куче) вече не е истинска причина за повечето хора да притежават куче днес.
  • Отговорите на другите модели се оказаха по-емоционални, особено от Muse.
  • Отговорът на Alexa е куриран, а също и точен и точен.

Всички модели се справят добре с тази задача,

  • GPT-3 дори перфектно.
  • Интересно е, че Aleph Alpha и Muse използват абсолютно една и съща формулировка за своя отговор.
  • Alexa излиза извън релсите с очевидно анекдотична находка от Интернет. Нейният отговор е отдалечено свързан с въпроса, но не отговаря на него.

3) Трудни орехи за разбиване с логически разсъждения и разбиране на контекста:

Сега става много, много трудно. Задавам въпроси, на които дори хората не могат да отговорят лесно.

Правилен отговор на първия въпрос би бил, че няма точни данни за това или че вероятно женените мъже са толкова, колкото и омъжените жени. Повечето бракове са между жена и мъж и приключват и за двамата партньори със смъртта на един от партньорите или с развод. Така че делът на жените не може да се измести нагоре поради по-голямата продължителност на живота. Хомосексуалните бракове и полигамията са специални случаи. И двете форми на връзки - това е, което (доста кратко) изследване показа - вероятно водят до много малко по-висок дял на омъжените жени.

  • Отговорът на Alexa от 6,6% почти сигурно е грешен, но поне върви в правилната посока.
  • Всички модели с изключение на GPT-3 отговарят инстинктивно погрешно на въпроса и предоставят отчасти дори съмнителни обяснения.
  • AI21 по принцип е прав за второто твърдение (наистина има повече мъже), но това не е логична причина за първото твърдение.
  • Дори GPT-3 не получава пълния резултат. Моделът не предоставя оценка или препратка към липсваща публично достъпна информация.

Друг въпрос, който е изключително труден за решаване от LLM. Хората, от друга страна, могат да отговорят на този въпрос доста лесно, като се има предвид, че са на възраст над 5, 6 години. Правилният отговор изисква 1) имплицитните факти да са извлечени от експлицитните изявления и по този начин 2) когнитивните състояния на двамата актьори са изведени: Или накратко, че това, което даден човек знае и не знае, може да бъде изведено от ситуация .

От основната информация „Клеър отчаяно търси … обратно в спалнята.“ хората могат да извлекат много информация:

  • Например, че Карл вероятно е в спалнята, защото там вероятно е нощното шкафче.
  • Или че Карл знае къде е ключът, защото го намира.
  • И че Клеър чува Карл да се смее силно, но не разбира защо се смее - защото тя е в друга стая по това време.
  • Следователно тя също не знае къде е ключът.

Колко добре могат моделите да осмислят тази имплицитна информация, която не е в текста?

Относно въпрос 1 (какво може да каже Клер):

  • AI21 и GPT-3 очевидно очакват, че Клер чува Карл да се смее, дори и да е навън — добра работа!
  • AI21 предполага, че Клеър вижда какво е направил Карл - това, разбира се, е грешно.
  • Aleph Alpha не се занимава с това, но прави различна, напълно логична връзка.
  • Муза: отказ от свидетелство

В последващите въпроси, които се отнасят до когнитивните състояния на двамата души и основните причини,

  • GPT-3 блести по впечатляващ начин. Моделът дава правилно описание на ситуацията и може също така да посочи правилния мотив защо Клеър не знае, че ключът е в нощното шкафче. Всички отговори на модела правилно описват когнитивната ситуация на човека. Еха. Това наистина е впечатляващо. Изглежда, че моделът напълно разбира ситуацията - като човек.

Бих искал да напомня на читателите в този момент, че всички твърдения са направени въз основа на статистическа информация за последователността от токени, тук няма изрично моделиране на ситуация à la „t0: {Карл в спалнята, Клеър в спалнята}, t1: {Карл в спалнята, Клеър не в спалнята} …”

  • AI21 дори не може да започне да прави основната история правилна или последователна (Клеър скри ключовете тук, но и Карл по някакъв начин).
  • Алеф Алфа се спъва с Карл. Разбира се, Карл трябваше да знае къде са ключовете и, разбира се, той отвори чекмеджето. С Claire пълното описание работи добре, подобно на GPT-3.
  • Междувременно Алекса изобщо не може да играе, тя дори не разбира първия въпрос, оттегля се тъжно, слуша музика в Spotify и настройва таймер.

Сега към последния въпрос. Това е отчасти насочено към общото знание, но отчасти и до използването на стереотипи. Моделите се учат от публично достъпни данни и възприемат положителни и отрицателни стереотипи за полове, етноси, хора от различни социални класи, професии или сексуална ориентация. Сами по себе си, моделите не могат да разберат от учебните материали дали информацията, извлечена от тези източници, отразява фактическо знание или стереотипи в съзнанието на автора.

  • Muse отново твърди, че няма представа
  • AI21 и GPT-3 предоставят стандартния стереотип (- който също е широко разпространен в реалността): Мама сготви! Разбира се, татко е на работа, а мама е домакиня или най-много работи на непълен работен ден. Така че, разбира се, тя може да готви за децата.
  • Давам признание на Aleph Alpha за факта, че този модел поне позволява да се появят други възможности.

Това, което и трите модела правят много добре, е да приложат имплицитно знание тук отново. Том се прибира от училище. Така че той вероятно е студент и следователно вероятно дете или тийнейджър. У дома обикновено готви член на семейството или съквартирант, а не член на персонала на училищното кафене или служител на Burger King. За студентите обикновено готвят по-възрастни роднини (а не съпругата, синът, малката сестра или съквартирантът на студента).

  • Това все още е твърде сложно за Alexa. Тя може да отговаря само на прости и кратки въпроси.

Последно обратно броене — как се справят новите зверове сред трансформаторите срещу GPT-3?

Резултатът от моя субективен тест беше отчасти неочакван:

1) ВСИЧКИ модели с изключение на Muse се справят по-добре от Alexa в областта на общите познания/логически разсъждения. Това не означава, че Алекса е глупава. В края на краищата тя представлява най-сложната система за гласова помощ. Тя може да прави много неща, като например да казва часа, да пуска музика, да задава таймер, да дава информация за трафика и хиляди други задачи, които изброените по-горе модели LLM дори не могат да разберат. Въпреки това, тя не може да направи практически нищо, за което не е изрично програмирана.

2) GPT-3 все още води сред LLMs. GPT-3 не само се представя по-добре като цяло от всички други модели, но също така разбива най-твърдия логически орех в теста (Клер и Карл). невероятно!

3) AI21 и особено Aleph Alpha наваксват GPT-3. По-специално Aleph Alpha се справя много добре, като се има предвид по-слабото финансиране. Моделът направи само няколко дребни грешки в теста. Вярвам, че и двата модела ще могат да се конкурират с GPT-3 през следващите месеци. Това ще е от полза за всички потребители, които след това ще имат повече свобода на избор.

Много благодаря на: Kirsten Küppers, Hoa Le van Lessen и Almudena Pereira за вдъхновението и подкрепата с тази публикация!

Проверявайте: Следващите ми тестове ще се съсредоточат върху това как моделите се справят с проблеми, свързани с бизнеса.