Тази публикация в блога е реакция на документа на CVPR’19 „Отпечатване на чувствителни проби на дълбоки невронни мрежи“. Техният документ предлага метод за защита на целостта на прогнозите, направени от дълбока невронна мрежа за класификация на изображения (DNN), хоствана в облака. Ние показваме, че нечестен доставчик на облачни услуги може лесно да избегне своя метод, като използва пълен контрол върху средата за изпълнение на DNN. Тази атака е в рамките на модела на заплаха на автора и прави техния подход неефективен. Ще обобщим накратко статията, преди да представим атаката, но препоръчваме да прочетете и статията на автора.

https://openaccess.thecvf.com/content_CVPR_2019/html/He_Sensitive-Sample_Fingerprinting_of_Deep_Neural_Networks_CVPR_2019_paper.html

Целта на автора е да предостави „методология за защита на целостта на модела на DNN моделите, разположени в облаци“. Те смятат за нападател, който хоства DNN в облака и чиято цел е „умишлено да намеси отдалечените модели, за да ги направи неизправни“. Формите на неизправност, цитирани от авторите, са троянски и отравящи атаки, при които тайна функционалност, известна още като *backdoor*, е вградена в модела, който може да бъде използван по време на извод. Те мотивират нападателя, като описват сценарий, при който класификатор на лица, използван за удостоверяване, се хоства отдалечено в облака. Заплахата би била, че нападател, който контролира облака, може „лесно да заобиколи механизма за удостоверяване, без да бъде открит“, като вмъкне задни врати в DNN.

Те представят метод, при който защитникът проверява целостта на прогнозите на модела, като запитва DNN за внимателно изработени входове, наричани *отпечатъци от чувствителни проби*, чиито прогнозирани етикети се променят при незначителни модификации на модела (както твърдят авторите ). Ако прогнозите на дистанционното и предоставения модел се различават поне веднъж, защитникът знае, че моделът е манипулиран. Авторът позволява на защитника така наречената *черна кутия* достъп до DNN, в която е достъпен само API на модела (но не и неговите параметри).

Ние твърдим, че техният метод НЕ Е СИГУРЕН и може лесно да бъде избегнат от мотивиран нападател. Вместо да модифицира DNN на защитника, нападателят внедрява задна врата, като отклонява изпълнението на DNN на защитника на определени входове. Нападателят прилага входен филтър, който идентифицира входове, чиито етикети трябва да бъдат променени. При получаване на заявка за изображение, ако входът не отговаря на критериите на филтъра, се извиква DNN на защитника и се връща предвиденият му етикет. Ако заявка за изображение удовлетворява критериите на филтъра, задната врата на атакуващия се извиква и отговаря с желания етикет. Тази *проста* атака ще бъде открита от защитника само ако се случи да изпрати входове, които отговарят на критериите на филтъра (което е малко вероятно в повечето практически сценарии). Тъй като атаката няма странични ефекти върху DNN на защитника, състезателните примери, използвани като пръстови отпечатъци, трябва да са неефективни при идентифицирането дали моделът е бил манипулиран.

Дори когато защитникът по някакъв начин е имал достъп от бяла кутия до модела, пръстовите отпечатъци от чувствителна проба биха били по-ниски от простото сравняване на хеш от теглата на модела. Обърнете внимание, че нашата атака може да бъде улеснена само от нападателя, защото (i) те контролират средата за изпълнение на DNN на защитника и (ii) отговарят с очаквания етикет (т.е. прогнозите на DNN на защитника) за входове, които не съвпадат с техния филтър критерии.

Ние не твърдим, че проверката на целостта на отдалечено хостван DNN е невъзможна. Тази атака се отнася специално за метода, предложен от авторите, при който се използват няколко входно-изходни двойки, за да се провери дали моделът е бил подправен.