Галлюцинации искусственного интеллекта в больших языковых моделях (LLM)

Инструменты генеративного искусственного интеллекта стали очень популярными за последние 12 месяцев и доминируют в новых историях по всему миру. Известные приложения, такие как ChatGPT, Google Bard и DALL-E 2, вызвали огромный всплеск общественного интереса и рост использования. Люди во всем мире осознали огромный потенциал, которым обладают эти приложения, и то, что они могут предложить, и уже воспользовались этой возможностью, извлекая выгоду из этой мощи. Некоторые даже зашли достаточно далеко, чтобы сказать, что генеративный ИИ потенциально может «добавить триллионы долларов в мировую экономику…». может добавить эквивалент 2,6–4,4 триллионов долларов ежегодно» (McKinsey). Варианты его использования на самом деле безграничны и могут расширяться настолько далеко, насколько позволяет человеческий разум. Мы увидели его творческий потенциал в искусстве и его способность производить больше математических и научных результатов, которые будут использоваться во множестве отраслей, например, в медицинских исследованиях, финансах и технологиях. Однако есть подводный камень, который сопровождает все волнения. Иногда (до 20% случаев) инструменты генеративного искусственного интеллекта могут дать пользователю ложный или неправильный ответ, предваряя его и цитируя из реальных источников, делая его похожим на законный. Это то, что мы называем галлюцинацией. Эти галлюцинации могут возникать по различному ряду причин, о которых речь пойдет ниже.

В этой статье я стремлюсь объяснить, что такое LLM и как он функционирует, а также изучить различные причины, по которым обязательно возникают галлюцинации. Самое главное — изучить, как мы можем улучшить LLM, чтобы минимизировать ошибочные выходные данные и стремиться к достижению 100% точности. Эту проблему уже выявили различные игроки на рынке ИИ, и предпринимаются большие усилия по поиску решения.

Итак, что такое модель большого языка (LLM)?

LLM в своей самой базовой форме представляет собой сложный алгоритм глубокого обучения, состоящий из десятков миллионов или триллионов искусственных нейронных сетей. Целью алгоритма является обнаружение взаимосвязей и закономерностей между входными и выходными переменными без выполнения ручных инструкций, т. е. он остается функционировать самостоятельно. Нейронная сеть состоит из входного слоя, скрытого слоя и, наконец, выходного слоя.

Алгоритму предоставляются данные обучения для обучения, а затем он использует свои знания для прогнозирования данных тестирования. сильный>. Важной особенностью, которую следует подчеркнуть, является то, что он работает в неконтролируемой среде, а это означает, что входные и выходные данные обучения не помечены, что позволяет алгоритму принимать независимое (или полунезависимое) решение о том, какие точки данных следует использовать. входные данные по сравнению с выходными, что в конечном итоге позволяет обнаружить взаимосвязи между обеими переменными. При работе с этими алгоритмами мы можем столкнуться с ошибкой смещения и ошибкой отклонения. Мы наблюдаем ошибки с низким смещением, когда данные обучения очень хорошо соответствуют алгоритму, но работают плохо, когда вводятся новые данные тестирования, что приводит к высокой ошибке дисперсии, предполагающей, что модель переобучена. С другой стороны, низкая ошибка дисперсии в сочетании с высокой ошибкой смещения предполагает недостаточное соответствие. Ученые в области машинного обучения пытаются найти золотую середину, где как смещение, так и ошибка дисперсии сведены к минимуму, чтобы создать наиболее точный алгоритм, который не является ни избыточным, ни недостаточным. Еще одна ошибка, о которой стоит упомянуть, — это смещение базовой ошибки, которое является продуктом случайности.

Что такое галлюцинация?

Теперь, когда мы объяснили, что такое модели LLM и как они работают, мы углубимся в галлюцинации. Галлюцинации — это всего лишь ложь или статистические ошибки, создаваемые алгоритмом глубокого обучения на основе обучающих данных, которые ему были переданы ранее. Эти обучающие данные можно назвать корпусом. Это результат компиляции и объединения миллионов фрагментов данных, от текста до изображений. Теперь качество корпуса зависит от качества данных. Например, корпуса некоторых моделей ИИ взяты из данных Википедии. Мы знаем, что не все, что опубликовано в Википедии, на 100% соответствует действительности, и поэтому это может быть источником ошибок. Другая галлюцинация может возникнуть, когда модель дает вам фактическую информацию, но не имеет отношения к вашим вопросам или подсказкам.

Пример

Иордания – страна, расположенная на Ближнем Востоке. Джордан также является известным баскетболистом.

В этом примере представленная информация является фактической и точной, однако может не совсем соответствовать тому, что мы ищем. Это происходит потому, что модели ИИ генерируют ответы, основанные на закономерностях и предсказуемости, и не имеют собственного разума. Двигаясь дальше, третий пример галлюцинаций может возникнуть в результате чрезмерной оптимизации и систематической ошибки в обучающих данных.

Как упоминалось ранее, разработчики моделей ИИ стремятся свести к минимуму ошибки предвзятости и дисперсии, стремясь построить модель, которая не является ни избыточной, ни недостаточной и, следовательно, может использоваться для прогнозирования результатов на основе входных данных. Это может стать серьезной проблемой, поскольку иногда, когда модель не может выдать результат в подсказку, она может дать ответ, полностью цитируя ее, создавая впечатление, что это правильно. Наконец, смещение самих данных также является серьезной проблемой при работе с любой моделью. Обычно существует набор предположений, которые ученые явно излагают при построении модели, т. е. данные нормально распределены, доходность цен на акции во времени распределена логнормально и т. д. Во многих случаях эти предположения не выполняются в 100% случаев, что побуждает нам наблюдать нарушения, т. е. отрицательно (более заметно, например, в случае с кэрри-трейдами) или положительно искаженные данные, данные с чрезмерным эксцессом. Эти нарушения в данных, представленных в качестве обучающих данных, могут привести к искажению результатов как в них самих, так и в них самих.

Потенциальные факторы риска

При общении с чат-ботом службы поддержки клиентов, задающим простые вопросы, общий уровень риска или предполагаемый риск может быть относительно низким. Однако, когда мы распространяем эти модели ИИ на другие области, например, на медицину, ошибки или галлюцинации, которые допускает модель, могут оказаться пагубными и серьезными. Некоторые модели искусственного интеллекта уже используются, например, для проверки качества компьютерной томографии. Если модель ИИ галлюцинирует и допускает ошибку при оценке качества изображения, потенциальные последствия и последствия могут поставить жизнь человека под угрозу. Вместе с этим возникает множество вопросов, касающихся этических последствий и смещения ответственности, однако я не хочу этого касаться. Еще один пример, который вы, вероятно, уже видели в действии, — это модель искусственного интеллекта Tesla, управляющая автономными транспортными средствами. Опять же, любая незначительная галлюцинация модели может привести к опасному для жизни несчастному случаю. На данный момент беспилотные автомобили Tesla стали причиной 17 смертей.

Решения

Есть несколько решений проблемы галлюцинаций. Во-первых, убедитесь, что источник данных, из которого вы получаете свой корпус, является законным, то есть не Википедия или Reddit. Дополнение обучающих данных за счет введения более разнообразного набора ресурсов также обязательно поможет повысить точность и запоминаемость (отношение истинно положительных результатов к сумме истинно положительных и ложно отрицательных результатов). Возвращаясь к статистике 101, мы уменьшаем вероятность ошибки типа 2, когда увеличиваем отзыв, поскольку ошибку типа 2 можно понимать как (1 — отзыв). Это может быть особенно важно в случае медицинского диагноза или, как упоминалось ранее, определения качества компьютерной томографии.

Во-вторых, мы можем точно настраивать и калибровать наши модели под конкретные задачи и области. Сужение задач или требуемых результатов модели определенно может уменьшить галлюцинации. В предыдущем примере бот с искусственным интеллектом идентифицировал Иорданию как страну на Ближнем Востоке, а также идентифицировал Майкла Джордана как баскетболиста. Если бы мы обучили модель и позволили ей распознать свой ответ как ошибку, мы смогли бы обойти эту галлюцинацию.

Наконец, снова возвращаясь к статистике, мы можем экспериментировать и корректировать доверительные интервалы, которые мы уверены в используемой модели. Использование доверительного интервала 90 % (1,65) может быть точным и достаточно хорошим при применении модели в некоторых отраслях, однако нам может потребоваться более высокий доверительный интервал, например 95 % или 99 %, при работе в более рискованных такие отрасли, как медицина. Опять же, это ни в коем случае не простая задача, поскольку корректировка доверительных интервалов предполагает неявные предположения и изменения, например, в отношении ошибок типа I и II. Поэтому специалист по данным или инженер по машинному обучению должен учитывать множество факторов при определении уровня желаемой точности. Оценка Human in Loop также может представлять здесь интерес, но, как следует из названия, она будет включать в себя больше ручных задач, которые требуют больше времени, денег и энергии.

В заключение, генеративные алгоритмы искусственного интеллекта, без сомнения, произвели революцию в том, как мы рассматриваем, используем и взаимодействуем с технологиями, к лучшему. Однако, как и все остальное в этом мире, нет ничего идеального, и мы всегда должны проявлять осторожность и проявлять интуитивный и критический ум, когда получаем новую информацию.

Ресурсы:

1. https://www.washingtonpost.com/technology/2023/06/10/tesla-autopilot-crashes-elon-musk/

2. https://analystprep.com/study-notes/cfa-level-2/quantitative-method/overfitting-methods-addressing/

3. https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the- Economic-potential-of-generative-ai-the-next-productivity-frontier#introduction

4. https://www.artificialintelligence-news.com/2023/03/15/hallucinations-plagiarism-and-chatgpt/

Галлюцинации искусственного интеллекта в больших языковых моделях (LLM)

Пример

Похожие вопросы