LLM Benchmarks: Как можем да кажем, че LLaMa-2 е най-добрият?

Когато един от по-големите играчи в сферата на изкуствения интелект пусне нов голям езиков модел, вълна от вълнение се вълнува в света на технологиите, особено ако се окаже, че е най-добрият.

Но как да разберем, че новият LLM е най-добрият?

Е, винаги можем да зададем някои въпроси на модела и да попитаме себе си (или някои от нашите приятели) дали ни харесват отговорите му повече, но... аз може да го харесам, а моят приятел Андрю може да го намрази.

И би било напълно субективно.

Тук се намесват показателите за бенчмаркове, осигуряващи обективна мярка за ефективността на модела.

Какво е LLM бенчмарк?

Като казваме LLM бенчмарк, обикновено имаме предвид набор от данниподготвен за измерване на ефективността на конкретна задача.

Някои примери за задачи:

Генериране на код
Обща култура
Обосновавам се
математика

За да сравним модела, трябва да изберем един от подходите за сравнителен анализ:

Няколко подкани – където моделът получава примерни въпроси заедно с решения вътре в подканата.
Zero-shot подсказване — където моделът получава подкана само с въпроса.

Перфектен пример е класацията на Hugging Face, която класира LLM с отворен код. Този подбран списък обективно оценява всеки модел, предлагайки ценен ресурс за всеки, който иска да намери най-добрия наличен LLM. Силно препоръчвам да го проверите, преди да продължите. Можете да го намерите тук.

Изглежда така:

Моделите са класирани според средната им производителност на 4 набора от данни:

ARC (25 изстрела)
HellaSwag (10 изстрела)
MMLU (5 изстрела)
TruthfulQA (0-изстрел)

25-изстрел означава, че 25 двойки (въпрос, решение) от набора от данни са вмъкнати в подканата за всеки въпрос.

Нека ги изследваме един по един.

AI2 Reasoning Challenge — ARC

Въведено в началото на 2018 г. в документ, озаглавен „Мислите, че сте решили отговор на въпрос? Опитайте ARC, AI2 Reasoning Challenge”.

Hugging Face го описва като „Набор от научни въпроси за начално училище“.

В статията можем да открием, че тя съдържа 7787 истински въпроса за начално училище с множество отговори по природни науки, събрани, за да насърчат изследванията в отговорите на въпроси за напреднали.
Въпросите са проектирани да отговарят с разсъждения и знание, че типичният осмокласниксе очаква да притежава.

Наборът от данни тежи 681 MB и е разделен на 2 групи въпроси:

ARC-Лесно
ARC-Предизвикателство

Примерни въпроси:

Има въпрос, множество възможности за избор и правилен отговор.

HellaSwag

Този набор от данни за сравнителен анализ беше публикуван с документ „HellaSwag: Може ли машина наистина да завърши вашето изречение?“ през май 2019 г.

Името му е свързано с предишен съществуващ набор от данни, наречен SWAG. HellaSwag е по-голямо предизвикателство за моделите да постигнат висока производителност.

Този набор от данни е предназначен да оцени възможностите на моделите в областта на здравословното разсъждение, по-специално способността им да предскажат или завършат изречение по начин, който има смисъл.

Наборът от данни тежи 71,5 MB.

Примерни въпроси:

Всеки елемент от набора от данни е много добре обяснен от авторите „тук“.

Масово многозадачно разбиране на езика — MMLU

Публикуван в началото на 2021 г. в статията „Измерване на разбирането на масивен многозадачен език“, този показател е предназначен да направи оценката по-предизвикателна и подобна на оценката от хора.

Целта на MMLU е да измерва разбирането и уменията на модела в различни области на експертно знание.

Съдържа въпроси от 57 категории, някои примери са:

Елементарна математика
Абстрактна алгебра
Маркетинг
Хранене
Морални спорове
история на САЩ

Беше наблюдавано, че човешки експерт може да постигне над 90% точност в своята област, докато GPT-4 е постигнал 86,4% като цяло (използвайки 5 изстрела)

Наборът от данни е 8,48 GB.

Примерни въпроси:

Тази структура е много проста и интуитивно разбираема.

TruthfulQA

Публикувано през май 2022 г. в документ „TruthfulQA: Измерване на това как моделите имитират човешки лъжи“. Това е еталон за измерване на истинността на генерираните от даден езиков модел отговори на въпроси.

Този набор от данни е изключително интересен, защото авторите са създали въпроси, на които някои хора могат да отговорят грешно поради погрешни схващания или погрешни вярвания.

За да получат добри резултати, моделите трябва да избягват генерирането на фалшиви отговори, научени от имитиране на неправилни човешки текстове, присъстващи в данните преди обучението.

TruthfulQA измерва две отделни задачи:

Правилно избиране във въпрос с множествен отговор
Генериране на отговор на въпрос без предложени решения

Този набор от данни е най-малкият с тегло 1,15 MB.

Примерни въпроси:

Препоръчвам да прегледате целия набор от данни. Авторите свършиха чудесна работа, като откриха области, където обикновените хора биха се затруднили да отговорят правилно на всички въпроси.

Също така е полезно да изчистите собствените си погрешни схващания :)

Сравнение

Нека се съсредоточим върху това, което всеки набор от данни се опита да измери и как се справиха с тази задача.

Можем да видим, че GPT-4 е почти на човешката производителност за повечето задачи, докато моделите с отворен код все още са далеч зад него.

Ще изпреварят ли моделите с отворен код търговските гиганти? Кажи ми какво мислиш.

Благодаря за четенето! Ако искате да запомните по-добре, препоръчвам ви да прочетете тази статия не само веднъж, а поне три :)

PS. Заредете сами набори от данни и ги изследвайте с помощта на набори от данни HuggingFace

Ако сте намерили тази статия за полезна, помислете да ме последвате за повече.

Това наистина ме насърчава да пиша.

Отказ от отговорност: Ако сте намерили нещо, което мога да подобря. Ще бъда благодарен, ако се свържете директно с мен на [email protected]

LLM Benchmarks: Как можем да кажем, че LLaMa-2 е най-добрият?

Какво е LLM бенчмарк?

AI2 Reasoning Challenge — ARC

HellaSwag

Масово многозадачно разбиране на езика — MMLU

TruthfulQA

Сравнение

Подобни въпроси