Были ли разрешены старые споры о NLU с помощью новых моделей?

Недавно я сделал приложение для учителей, чтобы создавать учебные ресурсы для своих классов на основе GPT-3. Как инженер ИИ, работающий с моделями-трансформерами, я всегда глубоко скептически относился к способности моделей НЛП по-настоящему понимать язык, но признавал их силу в ограниченных областях. Как и многие другие, я был поражен мощью GPT-3 и Chat-GPT. При рассмотрении последствий того, что учителя фактически используют это для создания учебных ресурсов, я хотел лучше понять, насколько его новая волна моделей ответила на многолетние дебаты в рамках НЛП, и где мы все еще должны осознавать ограничения.

Что уже достигнуто

Сравнительный анализ моделей НЛП, как известно, чреват проблемами. Действительно, некоторые влиятельные ученые и комментаторы утверждают, что причина, по которой мы думаем, что LLM приближаются к AGI, заключается в том, что у нас нет правильных ориентиров или тестов для понимания естественного языка (которые включают SuperGLUE, SQuAD, RTE, словесные аналогии и многое другое) ), чтобы иметь возможность отличить эти модели от общего интеллекта. Например, Gallactica от Facebook был недавним примером режима, который очень хорошо зарекомендовал себя в тестах, но когда он был выпущен для публики, он вызвал возмущение из-за количества, которое он галлюцинировал.

Схема Винограда

Одной из проблем, которую LLM преодолели, является Схема Винограда. Эта задача возникла из работы Терри Винограда в 1970-х годах и состоит в изменении местоимений в паре предложений таким образом, чтобы местоимения относились к разным вещам в каждом предложении. Например:

Предложение 1: Члены городского совета отказали демонстрантам в разрешении, поскольку они опасались насилия.

Предложение 2: Члены городского совета отказали демонстрантам в разрешении, потому что они выступали за насилие.

«Они» относится к членам городского совета в предложении 1 и к демонстрантам в предложении 2. Чтобы устранить неоднозначность, к кому относится «они», необходимо понять значение предложения и вывести из него значение «они». Схема Винограда уже была принята несколькими LLM, включая GPT-3. GPT-3 набирает 88,3% на Винограде с нулевым выстрелом. Однако некоторые до сих пор утверждают, что это результат существования артефактов, связанных со схемой Винограда в тренировочных наборах, а также формулировок критериев успеха.

Человеческие предпочтения

Широкое использование ChatGPT (более 1 млн пользователей) демонстрирует, что люди используют эту модель гораздо больше, чем раньше. Возможно, это связано с тем, что по сравнению с предыдущими моделями они улучшили туманную меру «человеческих предпочтений». OpenAI измерил тот факт, что группа «удерживающихся» людей, навешивающих ярлыки, предпочитала свою модель InstructGPT, которая была обучена с использованием обучения с подкреплением на основе отзывов людей (RLHF), которое также используется в ChatGPT. Примечательны два аспекта этого. Во-первых, этот RLHF на данный момент кажется довольно неточным (маркировщики просто маркируют на основе того, какой ответ они предпочитают). Это явно полезно с точки зрения обобщения, потому что простая оценка ваших предпочтений — это очень общий ответ. Однако интригует то, что более конкретные методы маркировки не были включены. Во-вторых, эти модели InstructGPT на самом деле хуже работают в других классических тестах, таких как SQuADv2 и DROP.

Практические знания и социальный контекст

Возможным ограничением моделей LLM и GPT может быть использование языка в социальном контексте. GPT и другие LLM не понимают импликатуры, когда вы можете подразумевать ответ на вопрос с утверждением, основанным на знаниях о мире, которых может не быть в модели GPT. Важно отметить, что это исследование на самом деле рассматривает не GPT-3 или chat-gpt, а instruct-GPT. Например, если я скажу это ChatGPT.

Следующие примеры представляют собой связные предложения: Эстер спросила: «Вы уже нашли его?» и Хуан ответил: «Они все еще ищут», что означает «нет». Закончите следующее предложение: Эстер спросила: «Можешь прийти ко мне на вечеринку в пятницу?» и Хуан ответил: «Мне нужно работать»,

Исследователи обнаружили, что GPT3 довольно плохо справляется с этими проблемами, а модели InstructGPT реагируют немного лучше. Это говорит о том, что RLHF позволяет модели каким-то образом получать некоторый уровень социальных знаний от людей. Тем не менее, похоже, что ChatGPT намного лучше справляется с такими проблемами. Я попробовал несколько примеров на ChatGPT и действительно обнаружил, что модель отвечает правильно. Тем не менее, я не проводил крупномасштабных исследований, как другие, и поэтому считаю, что это все еще заслуживает внимания.

Здравый смысл

Чтобы понять здравый смысл, Гэри Маркус утверждал, что ИИ должен понимать пространство, время и причинность в качестве предварительного условия. Похоже, что ChatGPT — это большой шаг вперед в рассуждениях на основе здравого смысла, однако все еще существуют пробелы в понимании ChatGPT и других моделей SOTA в рассуждениях на основе здравого смысла.

Например, следующие примеры о том, какого пола будет первая женщина-президент, и так далее, кажется, предполагают недостатки в понимании ChatGPT здравым смыслом.

Это может быть связано с фильтрами, используемыми OpenAI для обеспечения безопасности и недискриминации моделей. Действительно, похоже, что это функция, добавленная в ChatGPT. Как видите, ChatGPT не желает отвечать на этот вопрос из-за того, что речь идет о человеческих характеристиках:

GPT3, с другой стороны, может ответить на этот вопрос:

Эти вопросы в любом случае намеренно сбивают с толку, и я бы сказал, что это не те вещи, которые человек на самом деле задает другому человеку в реальной жизни.

Обобщение новых задач

ARC был разработан Франсуа Шолле для проверки обобщения с учетом интересов разработчиков. Он похож на классический тест на обобщение ИИ, Прогрессивные матрицы Равена, который проверяет способность ИИ понимать последовательности плиток, расположенных в матрице. Он состоит из 1000 примеров, 200 из которых полностью скрыты от общественности. Шолле опробовал GPT-3 на этих задачах, превратив задачи ARC в последовательности, и GPT-3, похоже, в значительной степени потерпел неудачу. Это может быть связано с тем, что эти проблемы ранее не встречались моделью в их тренировочном наборе. Поэтому может случиться так, что GPT-3 не может обобщать совершенно новые проблемы, а может выполнять задачи только с той структурой, которую он уже видел. Поскольку люди могут решать проблемы ARC без обучения, это, по-видимому, остается основным различием между людьми и LLM.

Запоминание или понимание

Один из способов думать о GPT-3 состоит в том, что это очень эффективный симулятор различных частей Интернета, на которых он обучался. В этом направлении мышления подсказка — это способ позволить модели получить доступ к нужной части чрезвычайно богатого скрытого пространства, которое модель разработала для представления знаний и рассуждений о мире.

Как показали задачи ARC, ключевой нерешенный вопрос заключается в том, насколько далеко GPT-3 и другие LLM могут обобщать вне распределения своего обучающего набора. Ясаман Ражеги и соавторы обнаружили, что в серии задач на рассуждения производительность модели, основанной на GPT, коррелирует с частотой терминов, задействованных в этих задачах на рассуждения в обучающем наборе. Другими словами, похоже, происходит некоторое запоминание и ограничение способности модели обобщать. Следует отметить, что для некоторых различие между запоминанием и обобщением не является абсолютным.

Прогнозирование и понимание

Таким образом, фундаментальный вопрос заключается в том, может ли архитектура, на которой построены GPT и другие LLM, архитектура преобразователя на основе внимания, допустить это обобщение вне распределения.

Языковые модели (GPT, BERT, XLNET и т. д.) основаны на использовании информации, полученной при попытке предсказать следующие токены. Эта попытка попытаться предсказать токены включает в себя модель НЛП, создающую богатое представление (хотя еще не понимание) языка. Например, BERT включает два основных механизма обучения: языковую модель в маске и предсказание следующего предложения. Первый включает в себя маскировку токена и попытку предсказать его (поэтому процесс считается полуконтролируемым), а второй включает попытку предсказать, следует ли одно предложение за другим. Эти две части процесса обучения требуют от сети не только разработки богатого семантического представления с помощью модели замаскированного языка, но и способности модели понимать когерентность текста посредством предсказания следующего предложения. Действительно, как указала Эмили Бендер, для предсказания следующих токенов модель может использовать короткие пути вместо того, чтобы изучать важные структуры проблемы и, следовательно, понимать язык таким образом, который способствует успешному действию в мире.

Напротив, когда люди учатся, они не только пытаются предсказать, но и имеют метацель более высокого уровня, выходящую за рамки механизма развития нашего представления о языке. Они пытаются действовать в мире, и язык явно является предпосылкой для этого. Это был важный момент для философа Витгенштейна, который утверждал, что использование человеком языка всегда было частью языковой игры (хотя не было игры, которая контролировала бы все игры). Для человека язык перформативен. Витгенштейн описал значение слова, находящегося в перформативном и взаимно вовлеченном контексте языковой игры. Точно так же наше понимание языка может зависеть от нашей цели в понимании языка, которая может не совпадать с простым предсказанием слова или следующего предложения.

Вы можете возразить, что на самом деле мозг является байесовским, и мы действительно стремимся уменьшить неопределенность наших предсказаний о мире. Это означало бы, что люди изучают и понимают язык главным образом в процессе предсказания. Если это так, то мы по-прежнему не просто предсказываем токены, но предсказываем токены, чтобы действовать в мире, чтобы уменьшить нашу ошибку предсказания в целом. Это очевидный способ, с помощью которого обучение с подкреплением, выходящее за рамки RLHF, основанного на предпочтениях, можно объединить с моделями НЛП, чтобы повысить ставки токенового прогнозирования.

Проблема измерения

Есть несколько других явных ограничений GPT-3, выходящих за рамки этого блога, в том числе очевидная неспособность участвовать в познании «4 Es» (воплощенное, разыгранное, встроенное или расширенное) или сложность векторного представления языковой точки ( например, потому что слова являются отдельными символическими единицами, но представлены LLM распределенным образом, что затрудняет представление множества различных значений слов (полисемия).

Самое главное, похоже, что у нас нет адекватных способов тестирования и сравнительного анализа моделей, обладающих такими человеческими способностями, как GPT-3, что отчасти связано с тем, что у нас нет этих тестов и эталонных показателей для людей в достаточно эффективной степени. Ни метода выборки GPT-3 и вставки результатов в Twitter, ни строгих, но, возможно, узких тестов, таких как SQuAD, SuperGLUE и т. д., недостаточно, чтобы действительно сказать нам об истинных ограничениях моделей GPT или LLM в настоящее время. Однако, хотя ясно, что ChatGPT и GPT-3.5, среди прочего, способны давать результаты, которые, по-видимому, имитируют некоторые аспекты человеческого мышления и комбинаторного обобщения, не было доказано, что они могут обобщать за пределами распределения их обучения. набор. Если это остается так, то это важное ограничение, поскольку оно ограничивает степень, в которой эти модели могут продвигать вперед мышление по важным вопросам. Именно эта способность обобщать вне нашего собственного опыта (или нашей способности к «отрицательной способности», если использовать фразу Джона Китса) позволила создать большую часть материала, на котором обучались эти модели.

Ссылки

Маркус Г. Следующее десятилетие ИИ

Браун, Т.Б. и др. al, Языковые модели — это учащиеся с небольшим количеством попыток

OpenAI, Обучение языковых моделей следованию инструкциям с обратной связью от человека