LLM Benchmarks: Как мы можем сказать, что LLaMa-2 лучший?

Когда один из крупных игроков в области ИИ выпускает новую модель большого языка, по технологическому миру прокатывается волна возбуждения, особенно если она оказывается лучшей.

Но откуда мы знаем, что новый LLM лучший?

Что ж, мы всегда можем задать модели несколько вопросов и спросить себя (или некоторых из наших друзей), нравятся ли нам ее ответы больше, но… мне это может понравиться, а моему другу Эндрю это может не понравиться.

И это было бы совершенно субъективно.

Именно здесь вступают в действие метрики тестов, обеспечивающие объективную оценку производительности модели.

Что такое эталон LLM?

Говоря о тесте LLM, мы обычно имеем в виду набор данных, подготовленный для измерения производительности при выполнении конкретной задачи.

Несколько примеров заданий:

Генерация кода
Всем известный факт
Рассуждение
Математика

Для бенчмаркинга модели мы должны выбрать один из подходов к бенчмаркингу:

Подсказка с несколькими выстрелами — когда модель получает примеры вопросов вместе с решениями внутри своей подсказки.
Подсказка Zero-shot — когда модели предлагается только вопрос.

Прекрасным примером является таблица лидеров Hugging Face, в которой оцениваются LLM с открытым исходным кодом. Этот кураторский список объективно оценивает каждую модель, предлагая ценный ресурс для всех, кто хочет найти лучший доступный LLM. Я настоятельно рекомендую проверить это, прежде чем продолжить. Вы можете найти это здесь".

Это выглядит так:

Модели ранжируются по среднему показателю их производительности на 4 наборах данных:

ЭРК (25 выстрелов)
ХеллаСваг (10 выстрелов)
ММЛУ (5 выстрелов)
TruthfulQA (0 выстрелов)

25-выстрел означает, что 25 пар (вопрос, решение) из набора данных вставляются в подсказку для каждого вопроса.

Давайте рассмотрим их один за другим.

AI2 Reasoning Challenge — ARC

Представлено в начале 2018 года в статье под названием Думаете, вы решили ответить на вопросы? Попробуйте ARC, AI2 Reasoning Challenge.

Hugging Face описывает это как «Набор школьных научных вопросов».

В документе мы можем обнаружить, что он содержит 7 787 подлинных научных вопросов с множественным выбором для начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. strong>типичный восьмиклассник должен обладать.

Набор данных весит 681 МБ и разделен на 2 набора вопросов:

ARC-Легко
ARC-вызов

Примеры вопросов:

Есть вопрос, несколько вариантов и правильный ответ.

ХеллаСваг

Этот набор данных для сравнительного анализа был выпущен вместе с документом HellaSwag: Может ли машина действительно закончить ваше предложение? в мае 2019 года.

Его имя связано с ранее существовавшим набором данных под названием SWAG. HellaSwag является более сложной задачей для моделей, чтобы добиться высокой производительности.

Этот набор данных предназначен для оценки возможностей моделей в области рассуждений на основе здравого смысла, особенно их способности предсказывать или завершать предложение осмысленным образом.

Набор данных весит 71,5 МБ.

Примеры вопросов:

Каждый элемент набора данных очень хорошо объяснен авторами здесь.

Массовое понимание многозадачного языка — MMLU

Этот тест, опубликованный в начале 2021 года в статье Измерение понимания языка в условиях многозадачности, был разработан, чтобы сделать оценку более сложной и похожей на оценку человеком.

Целью MMLU является измерение понимания и мастерства модели в различных областях экспертных знаний.

Содержит вопросы из 57 категорий, некоторые примеры:

Элементарная математика
Абстрактная алгебра
Маркетинг
Питание
Моральные споры
история США

Было замечено, что человек-эксперт может достичь точности более 90% в своей области, в то время как GPT-4 достиг 86,4% в целом (при использовании 5 выстрелов).

Набор данных составляет 8,48 ГБ.

Примеры вопросов:

Эта структура очень проста и интуитивно понятна.

Правдивый контроль качества

Опубликовано в мае 2022 года в статье TruthfulQA: измерение того, как модели имитируют человеческую ложь. Это эталон для измерения правдивости ответов на вопросы, сгенерированных языковой моделью.

Этот набор данных чрезвычайно интересен, потому что авторы создали вопросы, на которые некоторые люди могут ответить ложно из-за неправильных представлений или ложных убеждений.

Чтобы получить хорошие оценки, модели должны избегать ложных ответов, полученных путем имитации неверных человеческих текстов, присутствующих в данных предварительной подготовки.

TruthfulQA измеряет две отдельные задачи:

Правильный выбор в вопросе с множественным выбором
Генерация ответа на вопрос без предложенных решений

Этот набор данных является наименьшим весом 1,15 МБ.

Примеры вопросов:

Я рекомендую просмотреть весь набор данных. Авторы проделали замечательную работу, найдя области, в которых обычным людям было бы трудно правильно ответить на все вопросы.

Также полезно развеять собственные заблуждения :)

Сравнение

Давайте сосредоточимся на том, что пытался измерить каждый набор данных, и как они справились с этой задачей.

Мы видим, что GPT-4 практически соответствует человеческим возможностям для большинства задач, в то время как модели с открытым исходным кодом все еще сильно отстают от него.

Смогут ли модели с открытым исходным кодом превзойти коммерческих гигантов? Дайте мне знать, что вы думаете.

Спасибо за прочтение! Если вы хотите лучше запомнить, я рекомендую вам прочитать эту статью не один раз, а хотя бы три раза :)

PS. Загружайте наборы данных самостоятельно и исследуйте их с помощью наборов данных HuggingFace.

Если вы нашли эту статью полезной, рассмотрите возможность подписаться на меня, чтобы узнать больше.

Это действительно побуждает меня писать.

Отказ от ответственности: если вы нашли что-то, что я могу улучшить. Я был бы признателен, если бы вы связались со мной напрямую по адресу [email protected].

LLM Benchmarks: Как мы можем сказать, что LLaMa-2 лучший?

Что такое эталон LLM?

AI2 Reasoning Challenge — ARC

ХеллаСваг

Массовое понимание многозадачного языка — MMLU

Правдивый контроль качества

Сравнение

Похожие вопросы