Искусственный интеллект часто называют «следующим большим достижением», но важно понимать различные части искусственного интеллекта. Нынешнее модное слово «машинное обучение» не полностью объясняет, что такое ИИ на самом деле. Это сообщение в блоге призвано объяснить различные части искусственного интеллекта простыми словами, понятными каждому.

Машинное обучение (ML) - мощный инструмент. Его модели и их интерпретируемость привлекали все большее внимание в последние несколько лет, поскольку они стали более мощными и широко используемыми. Имея правильные данные, модели машинного обучения могут очень хорошо предсказывать новые данные практически без возможности интерпретации, но интерпретируемость важна по многим причинам.

Интерпретируемость модели позволяет нам ответить на некоторые из наших самых фундаментальных вопросов о прогнозах, которые делает модель: какие особенности вы узнали? Почему вы сделали это предсказание? Каковы ваши предположения? Что ваши результаты говорят нам о мире и какие выводы мы можем из них сделать? Почему это решение лучше другого?

Интерпретируемые модели машинного обучения - методы «черного ящика»

Как интерпретируемость работает на практике, особенно когда речь идет о глубоких нейронных сетях (DNN)? Существует несколько категорий методов интерпретируемости, каждая из которых имеет свои компромиссы. Мы начинаем с изучения первого подхода интерпретируемости «черного ящика», применяемого к любой проблеме: визуализации границ решения модели!

Методы интерпретируемости, не зависящие от модели

Термин «независимая от модели интерпретируемость» относится к подходам, которые не относятся к конкретному алгоритму или сетевой архитектуре. Это зонтик, под которым подпадают несколько методов интерпретируемости, включая, например, локальные интерпретируемые модели-агностические объяснения (LIME) и графики частичной зависимости (PDP).

Определение проблемы: насколько интерпретируемы наши модели?

1. Какие методы являются интерпретируемыми, не зависящими от модели методами, которые могут дать представление о модели независимо от того, какой алгоритм она использует?

2. Как интерпретировать результаты методов оценки интерпретируемости (например, кривую ROC)?

Инструменты интерпретируемости модели работают путем извлечения функций из обучающих данных, связанных с прогнозами модели. Проблема в том, что у большинства проблем нет интерпретируемых наборов функций! Например, рассмотрим проблему распознавания изображений, когда не существует интерпретируемых функций для маркировки объектов на изображениях, потому что существует слишком много классов, чтобы осмысленно описать каждый из них. Интерпретируемость модели возможна только путем добавления интерпретируемых функций, что часто довольно дорого.

Различные методы интерпретации

Наиболее распространенными методами интерпретируемости являются локальные интерпретируемые независимые от модели объяснения (LIME) и графики частичной зависимости (PDP). Хотя оба метода не зависят от модели и работают с любой интерпретируемой моделью, они различаются по типам инсайтов, которые они предоставляют.

Метод 1. Графики частичной зависимости (PDP)

Идея PDP относительно проста: учитывая точку данных, мы хотели бы знать, какие особенности этой точки данных (или какие другие данные в обучающем наборе) больше всего влияют на ответ модели, когда дана только подмножество. Чтобы интерпретировать «наибольшее влияние», мы должны определить его математически. Это приводит нас к частным производным! Частные производные позволяют нам измерить, насколько изменение некоторых входных данных влияет на параметр модели или выход. Таким образом, PDP дают представление о том, какие переменные в наших данных наиболее полезны для составления прогнозов - они просто показывают нам, где и насколько важны определенные функции.

Инструменты интерпретируемости модели работают путем извлечения функций из обучающих данных, связанных с прогнозами модели. Проблема в том, что у большинства проблем нет интерпретируемых наборов функций! Например, рассмотрим проблему распознавания изображений, когда не существует интерпретируемых функций для маркировки объектов на изображениях, потому что существует слишком много классов, чтобы осмысленно описать каждый из них. Интерпретируемость модели возможна только путем добавления интерпретируемых функций, что часто довольно дорого.

Метод 2. Индивидуальные условные ожидания (ICE)

ICE в некотором роде похож на LIME: оба интерпретируют функции, связанные с новыми входными данными, и оба требуют интерпретируемых версий моделей глубокого обучения. Однако ICE позволяет нам интерпретировать каждый отдельный результат, созданный моделью черного ящика, отдельно, а не только одну интерпретацию для всего вывода. Это означает, что вы можете получить разные объяснения различных выходных данных вашей модели!

Метод 3. Постоянная важность функции

Подход с перестановкой важности функции случайным образом повторно взвешивает функцию каждой функции во входном векторе. Затем он повторно вычисляет потери модели на примере с повторным взвешиванием, который интерпретируется с изменяемой интерпретируемостью. Этот подход может быть полезен для разделения интерпретируемых и неинтерпретируемых функций.

Метод 4. Глобальный суррогат

Глобальные суррогатные модели (GS) используют локальную область вокруг каждого входа для интерпретируемости - в отличие от LIME и ICE, которые интерпретируют только 1 новый вход за раз. GS строит интерпретируемые линейные модели для каждого вывода модели черного ящика, оптимизируя их точность прогнозов по всем точкам обучающего набора, чтобы наилучшим образом объяснить прогнозы из черного ящика. Интерпретируемость этих линейных моделей также можно представить в виде кривой ROC, площадь под кривой которой (AUC) показывает, насколько хорошо они работают! GS вычисляет интерпретируемую модель для каждого вывода модели черного ящика, поэтому он обеспечивает интерпретируемость для каждого прогноза исходной модели.

Это мощно, потому что выходные данные с интерпретируемой линейной моделью могут быть разложены на линейные комбинации функций, которые их объясняют - точно так же, как вы, возможно, узнали в своем классе математики в старшей школе. В частности, интерпретируемые модели предоставляют нам индивидуальные условные ожидания, но не требуют доступа к коду или весам. Это означает, что мы можем интерпретировать и даже оптимизировать наши модели черного ящика, добавляя новые интерпретируемые функции, не изменяя сам черный ящик.

GS требует меньше инженерных усилий, чем другие подходы, потому что нам не нужны интерпретируемые версии моделей глубокого обучения; нам нужна только версия черного ящика (например, xgboost). Однако интерпретируемость полученной интерпретируемой модели настолько хороша, насколько хорош сам черный ящик.

Метод 5. Локальные интерпретируемые независимые от модели объяснения (LIME)

LIME - это подход, который позволяет вам объяснять каждый прогноз, сделанный моделью черного ящика, на новом примере, основываясь на локальных регионах вокруг этого примера в исходном пространстве функций. Цель состоит в том, чтобы объяснить каждый прогноз для нового входа, используя только метки и значения локальных областей пространства функций этого входа. LIME требует доступа к интерпретируемым версиям моделей глубокого обучения, в частности, к любым уже упомянутым методам интерпретируемости моделей (Pacman, PDP). Однако его можно использовать поверх любой модели, обученной с помощью регуляризации.

Метод 6. Значение Шепли [SHAP]

Значения SHAP (Аддитивные объяснения Шапли) аналогичны GS, поскольку они используют интерпретируемые линейные модели для каждого выхода. SHAP создает интерпретируемые линейные модели на основе декомпозиции результатов глубокого обучения с использованием взаимодействий функций (то есть того, как отдельные функции взаимодействуют с другими отдельными функциями).

SHAP вычисляет интерпретируемую модель для каждого вывода модели черного ящика, поэтому он обеспечивает интерпретируемость для каждого прогноза исходной модели. Это означает, что мы также можем оптимизировать наши модели черного ящика, добавляя новые интерпретируемые функции, не изменяя черный ящик!

И GS, и SHAP дают информативные объяснения, но поначалу их может быть трудно интерпретировать. Гораздо проще интерпретировать отдельные условные ожидания, потому что они интерпретируемы, но не информативны в отношении различных выходных данных модели.

ICE (индивидуальные условные ожидания) определяет интерпретируемость, определяя, как каждая функция способствует каждому выходу модели черного ящика - без необходимости интерпретировать версии моделей глубокого обучения. ICE вычисляет интерпретируемые модели для каждого вывода модели «черного ящика», поэтому он обеспечивает интерпретируемость каждого прогноза исходной модели. Это означает, что мы также можем оптимизировать наши модели черного ящика, добавляя новые интерпретируемые функции, не изменяя черный ящик! ICE предоставляет графики частичной зависимости и локальные линейные модели для интерпретируемости.

Глобальный суррогат против Шепли: что лучше?

Шепли поддается интерпретации, но GS имеет больше возможностей, поскольку учитывает взаимодействия между функциями. Он также не требует интерпретируемых моделей глубокого обучения, как ICE. Шепли может быть ограничен количеством существующих взаимодействий функций - в частности, количество возможных взаимодействий будет быстро расти экспоненциально (т. Е. 2 ​​^ n). Мы можем решить эту проблему, сначала построив интерпретируемую модель, которая даст нам разумные начальные веса для глобального суррогата, прежде чем переключить внимание на интерпретируемость.

И GS, и SHAP дают информативные объяснения, но их поначалу может быть трудно интерпретировать, потому что они основаны на линейных комбинациях (хотя GS, по крайней мере, имеет интерпретируемые локальные линейные модели). Гораздо легче интерпретировать отдельные условные ожидания, потому что они интерпретируемы, но не информативны в отношении различных выходных данных модели.

Значение Шепли - это способ оценить, насколько важна функция для объяснения определенного прогноза, сделанного интерпретируемой моделью, а также с учетом взаимодействия между функциями. Как и Global Surrogate, ценность Шепли имеет интерпретируемые локальные линейные модели, что делает ее более интерпретируемой, чем ICE. LIME (Local Interpretable Model-Agnostic Explanations) использует небольшие интерпретируемые модели для объяснения индивидуальных прогнозов модели черного ящика путем аппроксимации того, как были сгенерированы выходные данные.

Этот метод также можно использовать для интерпретации каждого элемента в ансамбле интерпретируемых моделей. В отличие от GS и SHAP, LIME требует интерпретируемых оценок важности функций для всех входных данных, так что интерпретируемость вычисляется только в исходном входном пространстве (тогда как GS и SHAP оба вычисляют интерпретацию во время тестирования, когда вводятся входные данные).

Методы оценки интерпретируемости

Существует два основных метода оценки интерпретируемости, а именно:

  • человеческая аннотация интерпретируемых моделей
  • предсказание интерпретируемости на тестовом наборе независимо от данных построения модели

Первый вариант лучше всего подходит для взаимодействия, второй, но он лучше демонстрирует общую мощность. Это можно продемонстрировать, показывая, что интерпретируемость уменьшается по мере того, как для обучения модели черного ящика предоставляется больше данных.

Однако интерпретируемость не всегда недостаточна - иногда она недостаточно эффективна, поскольку люди часто интерпретируют события, происходящие в предельном распределении, только по одной функции за раз.

Подведение итогов

Важной частью использования машинного обучения для корпоративных или потребительских приложений является интерпретируемость. Наиболее интерпретируемыми являются те модели, которые основаны непосредственно на хорошо обоснованных, масштабируемых формах человеческого вывода.

Излишне говорить, что интерпретируемость стала ключевым фактором при разработке и применении систем машинного обучения. И все же, несмотря на то, что интерес к интерпретируемости растет в геометрической прогрессии, также возникают опасения по поводу того, что именно означает интерпретируемость и как ее можно измерить. Цель этой статьи - дать рекомендации по некоторым ключевым соображениям, связанным с интерпретируемостью, на основе различных экспериментов с различными подходами.

Первоначально опубликовано на https://www.cliently.com.