Этот пост в блоге является реакцией на статью CVPR’19 «Отпечаток чувствительной выборки глубоких нейронных сетей». В их статье предлагается метод защиты целостности прогнозов, сделанных глубокой нейронной сетью классификации изображений (DNN), размещенной в облаке. Мы показываем, что недобросовестный поставщик облачных услуг может легко обойти свой метод, используя полный контроль над средой выполнения DNN. Эта атака находится в рамках модели угроз автора и делает их подход неэффективным. Мы кратко подытожим статью, прежде чем представить атаку, но мы рекомендуем также прочитать статью автора.

https://openaccess.thecvf.com/content_CVPR_2019/html/He_Sensitive-Sample_Fingerprinting_of_Deep_Neural_Networks_CVPR_2019_paper.html

Цель автора — предоставить «методологию защиты целостности моделей DNN, развернутых в облаках». Они считают злоумышленника, который размещает DNN в облаке и чья цель — «намеренно вмешаться в удаленные модели, чтобы сделать их неисправными». Формы сбоев, на которые ссылаются авторы, — это троянские программы и атаки с отравлением, при которых в модель встраиваются секретные функции, также известные как *бэкдор*, которые можно использовать во время логического вывода. Они мотивируют злоумышленника, описывая сценарий, в котором классификатор лиц, используемый для аутентификации, размещается удаленно в облаке. Угроза заключается в том, что злоумышленник, контролирующий облако, может «легко обойти механизм аутентификации, не будучи обнаруженным», вставив бэкдоры в DNN.

Они представляют собой метод, в котором защитник проверяет целостность прогнозов модели, запрашивая у DNN тщательно обработанные входные данные, называемые *отпечатками чувствительной выборки*, чьи предсказанные метки меняются при незначительных модификациях модели (как утверждают авторы). ). Если прогнозы удаленной и предоставленной модели отличаются хотя бы один раз, защитник знает, что модель была подделана. Автор разрешает защитнику так называемый «черный ящик» доступа к DNN, в котором доступен только API модели (но не ее параметры).

Мы утверждаем, что их метод НЕ БЕЗОПАСЕН и мотивированный злоумышленник может легко обойти его. Вместо того, чтобы модифицировать DNN защитника, злоумышленник внедряет бэкдор, ограничивая выполнение DNN защитника на определенных входных данных. Злоумышленник реализует входной фильтр, который идентифицирует входные данные, метки которых следует изменить. При получении запроса изображения, если входные данные не удовлетворяют критериям фильтра, вызывается DNN защитника и возвращается его предсказанная метка. Если запрос изображения удовлетворяет критериям фильтра, бэкдор злоумышленника вызывается и отвечает желаемой меткой. Эта *простая* атака будет обнаружена защитником только в том случае, если он отправит входные данные, которые удовлетворяют критериям фильтра (что маловероятно в большинстве практических сценариев). Поскольку атака не имеет побочных эффектов для DNN защитника, враждебные примеры, используемые в качестве отпечатков пальцев, не должны быть эффективными при определении того, была ли модель подделана.

Даже если защитник каким-то образом получил доступ к модели через «белый ящик», отпечатки пальцев чувствительного образца будут хуже, чем простое сравнение хэша веса модели. Обратите внимание, что наша атака может быть облегчена только злоумышленником, потому что (i) он контролирует среду выполнения DNN защитника и (ii) он отвечает ожидаемой меткой (т. е. прогнозами DNN защитника) для входных данных, которые не соответствуют их фильтру. критерии.

Мы не утверждаем, что проверка целостности удаленной DNN невозможна. Эта атака особенно применима к методу, предложенному авторами, в котором используется несколько пар ввода-вывода для проверки того, была ли подделана модель.