Модель использует четырехэтапный процесс для улучшения доверия и рассуждений в математических задачах.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 150 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Модели больших языков (LLM) часто борются с задачами на арифметические рассуждения, давая неправильные ответы из-за того, что математические задачи обычно имеют только одно правильное решение. Эта проблема создает дефицит доверия у LLM, поскольку они не указывают уровень своей уверенности в своих ответах. Чтобы улучшить их производительность и повысить доверие, исследователи из Microsoft предложили новую технику под названием MathPrompter, в которой используется метод продвижения цепочки мыслей Zero-shot. MathPrompter генерирует несколько алгебраических выражений или функций Python для решения одной и той же математической задачи разными способами, повышая уровень достоверности выходных результатов. В отличие от других методов CoT на основе подсказок, MathPrompter проверяет правильность выполненных промежуточных шагов. Этот метод продемонстрировал значительное улучшение по сравнению с современным набором данных MultiArith (с 78,7% до 92,5%) при оценке с использованием LLM на основе GPT с параметром 175B. MathPrompter вдохновлен тем, как люди решают математические задачи, разбивая их на более простые многоэтапные процедуры и используя несколько способов проверки подхода на каждом этапе. Этот метод можно использовать с другими моделями больших языков, такими как механизм завершения GPT3 DaVinci, который имеет 175 миллиардов параметров.

Математика

Генерация точных ответов на задачи математического мышления является сложной задачей для LLM из-за их генеративного характера. Предлагаемый метод MathPrompter черпает вдохновение из того, как учащиеся решают арифметические задачи, чтобы проверить свои решения. MathPrompter выполняет несколько шагов, чтобы обеспечить точность сгенерированных ответов, в том числе:

• Соответствие известным результатам

• Множественное подтверждение

• Перекрестная проверка

• Вычислительная проверка

Чтобы продемонстрировать процесс решения проблем с помощью MathPrompter, используется следующий вопрос «Q» из набора данных MultiArith:

В: В ресторане каждый прием пищи для взрослых стоит 5 долларов, а дети едят бесплатно. Если бы пришла группа из 15 человек, из которых 8 были детьми, сколько стоила бы еда для группы?

Процесс, за которым следует MathPrompter для решения проблемы, можно резюмировать следующим образом:

(I) Создание алгебраического шаблона

Задача преобразуется в алгебраическую форму путем замены числовых элементов переменными с использованием сопоставления ключ-значение. В этом случае измененный вопрос «Qt» становится:

· Qt: В ресторане каждый прием пищи для взрослых стоит A, а дети едят бесплатно. Если бы вошла группа из B человек, а C были детьми, сколько стоила бы еда для группы?

· Сопоставление: {A:5, B:15, C:8}

(II) Математические подсказки

MathPrompter генерирует аналитические решения Qt, используя два различных подхода: алгебраический и Pythonic. Он дает LLM следующие подсказки для создания дополнительного контекста для Qt:

· Алгебраическая подсказка: напишите математическое уравнение и сгенерируйте формат ответа, начинающийся с «Ответ =»

· Подсказка Python: напишите функцию Python, которая возвращает ответ.

LLM генерирует следующие выходные выражения в ответ на приведенные выше запросы:

· Вывод алгебраического выражения:Ответ = A*(B-C)

· Вывод выражения Python:def total_price(A, B, C): вернуть A * (B-C)

(III) Проверка вычислений

Выражения, сгенерированные на предыдущем шаге, оцениваются с использованием нескольких рандомизированных сопоставлений ключ-значение входных переменных в Qt. Метод Python eval() используется для оценки выражений, и результаты сравниваются, чтобы найти консенсус среди ответов. Это обеспечивает более высокий уровень уверенности в правильности и достоверности ответов. Как только выражения согласуются на своих выходах, значения переменных на входе Q используются для вычисления окончательного ответа.

· Алгебраический ответ = 35

· Pythonic-ответ = 35

(IV) Статистическая значимость

Чтобы обеспечить согласованность между выходными данными различных выражений, шаги (II) и (III) повторяются для N >= 5 раз, и сообщается наиболее часто встречающееся значение ответа. Это повышает точность и согласованность результатов.

MathPrompter использует современный механизм завершения GPT-3 DaVinci, чтобы генерировать ответы на задачи математических рассуждений. Метод включает дополнительные подсказки для повышения точности и согласованности результатов.

Microsoft Research провела ряд экспериментов с MathPrompter, показавших невероятные результаты.