Грешката при обработката на данни в изявен набор от данни за справедливо машинно обучение (кратка версия)

Резултатът на ProPublica COMPAS и данните за рецидивизма

В едно скорошно изследване хартияи блог post преразглеждам скора за риск от рецидивизъм COMPAS и криминална история данни, събрани от ProPublicaза нейната новаторска 2016 статияза алгоритмичната справедливост в съдебната система.

Намирам, че ProPublicaдопуснагрешка при обработката на данни при конструирането на ключовиподнабори от данни използвани в анализа за тази статия. Грешката в данните,която идентифицирам, засяга доста същественоняколко от по-фундаменталните аспекти на тези ключови поднабори от данни, като например размера на извадката, броя на рецидивистите и процента на рецидивизма . Смятам, че процентът на рецидивизъм е предубеденнагоре с почти 25%.

Въпреки това, което е интересно, нетривиалната грешка при обработката на данни, която открих, има малко въздействие върху най-известния резултат, докладван от ProPublica, използвайки същите поднабори от данни. А именно фалшивите положителни и фалшиво отрицателните проценти за афро-американците спрямо кавказците.

COMPASи подобни резултати за предсказване на риска понякога се използват за подпомагане на различни решения в съдебната система, като например такива относно освобождаване под гаранция и предварително задържане, присъда, пробация и условно освобождаване ( „Каугил 2018“ и „Джеймс 2018“).

Въз основа на своя анализ, фокусиран върху един набор от прогнозни показатели, ProPublica стигна до заключението, че оценката за риск от рецидивизъм COMPAS е предубеденаспрямо афро-американците. Компанията, разработила системата за оценяване на риска COMPAS, Northpointe Inc., използвайки същите данни, но фокусирайки се върху различен набор от прогнозни показатели, защитиоценките на риска като безпристрастен.

Поради противоречивия характер на темата и резултатите, както и публичната достъпност на данните, новаторската работа на ProPublica в разследващата журналистика подхрани интензивен дебат и изследвания в зараждащата се област на справедливостта машинно обучение или алгоритмична справедливост.

Резултатът от COMPAS на ProPublica и данните за рецидивизма се превърнаха може би в най-известните бенчмаркингданни, използвани от изследователите за тестване на нови или съществуващи дефиниции и процедури за справедливост на алгоритмите. (Вижте Corbett-Davies and Goel 2018 и допълнителните препратки, които включвам по-долу; или еднаот няколко публикации в средниблогове)

Въпреки че данните от COMPAS на ProPublica се използват във все по-голям брой проучвания, изследователите като цяло са взели наборите от данни, създадени от ProPublica, такива каквито са и не изглежда да са ги изследвали внимателно за проблеми с обработката на данни. Вместо да тествам новадефиниция или процедура за справедливост, аз разглеждам по-отблизо действителните набори от данни, събрани от ProPublica

По-специално разглеждам поднаборите от данни, създадени от ProPublica за изследване на рецидивизма в рамките на двугодишенпрозорец след първоначалния арест на обвиняемия в данните. По този начин установявам, че ProPublica е допусналасъществена грешка при обработката на данни, когато е конструирала тези двугодишни набори от данни за рецидивизма.

Както показвам по-долу, ProPublica не успяда въведе двугодишно прекъсване на извадкатаза рецидивисти(докато направи прилагане на такова извадково прекъсване за нерецидивисти)

В резултат на това ProPublica неправилно запази непропорционалендялнарецидивистив двугодишните набори от данни. Оценявам, че това измествадвугодишнияобщ процент на рецидивизъмнагорес приблизително девет процентни пункта, повишавайки го от 36%до45%.

Следователно двугодишният процент на рецидивизъм, който ProPublica изчислява, е с около 25% по-високот истинскиядвегодишен процент на рецидивизъм в същите тези данни, когато е обработени правилно.

В моята изследователска статия също изследвам как тази грешка при обработката на данни влияе върху други статистики. По-конкретно, разглеждам анализа на матрицата на объркването на ProPublica за високи/ниски резултати в COMPAS спрямо двугодишен статус на рецидив. Намирам, че пристрастните двугодишни набори от данни също имат същественефект върху положителната прогнозна стойност (или прецизност ) и отрицателната прогнозна стойност.

От друга страна, необективните двугодишни набори от данни имат относително слабо въздействие върху няколко други ключови статистики в анализа на матрицата на объркването, които са по-малко податливина промени в относителния дял на рецидивистите спрямо нерецидивистите. По-специално, точността, процентът на фалшиви положителни и процентът на фалшиво отрицателни.

Основното откритие на ProPublica за по-високфалшиво положителен процент и по-нисъкфалшиво отрицателенставката за афро-американците в сравнение с кавказците следователно не се променя, когато данните се обработват правилно.¹

Доколкото ми е известно, това е първият опит да се подчертае споменатата по-горе грешка при обработката на данни. В тази публикация в блога обобщавам моята изследователска документация.

(Ако искате повече информация, но не и пълната научна статия, вижте моята предишна дълга версияна тази публикация в блога. Създадох също Хранилище на GitHubс програмата R, която написах за анализиране на данните)

През 2016 екип от журналисти от ProPublica получи набор от данни за повече от 11 хилядидосъдебниобвиняеми от окръг Броуърд, Флорида, който е бил арестуван и оцененсъс системата за скрининг COMPAS между 1 януари 2013 г. и 31 декември 2014 г..

След това ProPublica събра данни за бъдещиарести до края на март 2016, за да проучи колко добре рисковият резултат COMPAS предвижда рецидивизъм от тези обвиняеми (и публикува статията си през май 2016 г.). (ProPublica даннитеи анализътса описани тук)

От тези данни ProPublica създаде два поднабора от данни специално за изследване на рецидивизма в рамките на две години от първоначалното престъпление и датата на скрининга на COMPAS. Проучвам по-специално двугодишния поднабор от данни за рецидивизма ProPublica, създаден за изследване на вероятността от общрецидивизъм. (Общият рецидивизъм включва както насилствени, така и ненасилствени престъпления)²

За да изгради двугодишните набори от данни за рецидивизъм, ProPublica вероятно е искала да държи хората наблюдаванипоне две години в края на времевия прозорец, за който е събрала данни от криминални досиета в края на март 2016 г.

Следователно не трябваше да очакваме да видим някаквиобвиняеми в двугодишните набори от данни с дати на проверка (или арест) на COMPAS след 1 април 2014 г.. (Тоест хора, наблюдавани по-малкоот две години преди крайната дата за данните от регистрите за съдимост, събрани от ProPublica).

За да проверя това, визуализирамдвугодишния общнабор от данни за рецидивизма, като анализирам разпределениетона обвиняемите по датите за проверка на COMPAS(скринингът обикновено се извършва в деня на или един ден след ареста). Правейки това, намирам, че ProPublica е допуснала съществена грешка при обработката на данни, когато е създала този набор от данни.

ProPublica не успя да приложи двугодишно прекъсване на извадката за рецидивисти (докато приложи такова прекъсване на извадката за нерецидивисти)

(В предишна дълга версия на тази публикация в блога обяснявам мотивите, които може да са подвели ProPublica по този начин)

Показвам тази грешка при обработката на данни на фигурата по-долу (ключовата фигура в моята изследователска статия). На тази фигура правя хистограмана броя случаи или арести по дата на скрининг COMPAS (която отново обикновено се извършва в деня на или един ден след ареста). За да видя ясно грешката при обработката на данните, правя отделнихистограми на екранни дати на COMPAS за рецидивисти и нерецидивисти.

Използвам 7-дневни (т.е. едноседмични)данни кошове за тези хистограми. За справка начертавам червена вертикална линия на 1 април 2014 г., което е двугодишната граница преди до края на прозореца за събиране на данни от криминалните досиета на ProPublica (в края март 2016 г.).

[Забележка: Тази фигура също така показва несвързан, но много видим спадв COMPAS прожекциите (или случаите) в средата на 2013 г. (за рецидивисти и нерецидивисти подобни). Това обаче е отделен проблем, който изглежда присъства в оригиналниянабор от данни, получен от ProPublica от Broward County, FL. Така че това не изглежда като грешка при обработката на данни от ProPublica и несещам този проблем]

Грешката при обработката на данните относно рецидивистите, изобразена по-горе водидо изкуствено високи нива на рецидивизъм в двугодишния набор от данни. Това се дължи на всички допълнителнирецидивисти с дати на екрана на COMPAS след 1 април 2014 г. ProPublica трябваше да изключи тези допълнителни рецидивисти от двугодишния набор от данни, но не го направи. (В моята дълга публикация в блога и статия изчислявам, че тези допълнителни рецидивисти представляват приблизително 30 процента от общия брой рецидивисти в двугодишния общнабор от данни за рецидивизма на ProPublica)

В резултат на това в двугодишния общнабор от данни за рецидивизма, създаден от ProPublica, двугодишният процент на рецидивизъм е 45%. Въпреки това, когато изтриядопълнителнитерецидивисти, вместо това изчислявам, че процентът на рецидивизъм за две години е само36%. По този начин двугодишният процент на рецидивизъм в набора от данни на ProPublica е нагорес приблизително деветпроцентни пункта или 25%.

В моята изследователска статия също изследвам как тази грешка при обработката на данни влияе върху други статистики. По-конкретно, разглеждам анализа на матрицата на объркването (или таблицата на истината) на ProPublica на резултата COMPAS спрямо двугодишен статус на рецидив. За такъв анализ ProPublica превърна резултата COMPAS в двоичен класификатор на Ниски срещу Високи резултати. (В моята статия правя същото)

В допълнение към разпространението на рецидивизма (т.е. степента на рецидивизъм), предубедениятдвугодишен набор от данни, използван от ProPublica, също влияе върху положителната прогнозна стойност (PPV) (или прецизност) и отрицателната прогнозна стойност (NPV). Ако ProPublica правилнообработи двугодишните данни, с произтичащото от това по-ниско разпространение на рецидивизма, не е изненадващо, че PPV ще бъде по-нисък, а NPV по-висок.

От друга страна, необективният двугодишен набор от данни има сравнително малковъздействие върху няколко други ключови статистики в анализа на матрицата на объркването, които са по-малко податливи на промени в относителния дял на рецидивистите спрямо нерецидивистите. По-специално, точността, честотата на фалшивите положителни резултати(FPR) ичестотата на фалшивите отрицателни (FNR). Или едно минус тези проценти, т.е., специфичност и чувствителност. (Обяснявам защо това е така в дългата версия на тази публикация в блога и моята изследователска статия)

Констатацията на ProPublica за по-високфалшиво положителен процент и нисъкфалшиво отрицателенпроцент за Афро-американците в сравнение с кавказцитебеше ключовата констатация, която привлече най-голямо внимание. Ето защо тази ключова констатация на ProPublica не се променя, когато данните се обработват правилно.¹

В крайна сметка практическото значение на грешката при обработката на данни, което идентифицирам тук, може да е ограничено. Аз непредполагам, например, че Нортпойнт е допуснал грешка, когато е разработил самия рейтинг на риска от рецидивизъм COMPAS (въпреки че данните, използвани за това, и действителният модел са патентовани и не са публично достъпни).

Освен това повечето от честнитеизследвания за машинно обучение изглежда са насочени към FPR, FNR или точността, които не са повлияни от грешката при обработката на данни.

И накрая, имайте предвид, че много потенциални проблеми с измерването могат да повлияят на прогнозния двугодишен процент на рецидивизъм в данните на COMPAS на ProPublica (както споменах в статията си). Някои от тях може да оказват натиск надолу върху оценката, може би компенсирайкидо известна степен отклонението нагоре, което идентифицирам тук.

Тази последна точка обаче не обезсилва акцента върху проблема с обработката на данни, който идентифицирам, и последващата корекция на данните, за която призовавам. Фокусът ми е върху вътрешнатавалидност на обработката на данните. Не твърдя, че след тази корекция данните няма да имат оставащи проблеми, нито непременно, че ще имат външнавалидност, което е извън обхвата на моя анализ.

Във всеки случай изглежда никой преди това не е визуализирал датите за скрининг на COMPAS за набора от данни за двугодишния рецидивизъм, както аз правя по-горе. (Ако са го направили, то не е било широко разпространено) Следователно грешката при обработката на данни, която идентифицирам тук, като цяло продължава и се разпространява повече от три години.

Публикациите в блога ми и научната статия се опитват да върнат фокуса и да подчертаят потенциалните клопки в етапа наобработка на данни.

Бележки под линия

Наскоро изследователите посочиха някои потенциални недостатъци на целта за алгоритмична справедливост на класификационния паритет, който се опитва да приравни мярка за класификационната грешка, като FPR или FNR, в подгрупите на населението ( Корбет-Дейвис и Гоел 2018 г.). Друга работа показа, че няколко популярни цели за алгоритмична справедливост са несъвместими и невъзможни за постигане едновременно (напр. Chouldechova 2016 и Kleinberg et al. 2018).
В моите публикации в блога и статия разглеждам двугодишния набор от данни за общрецидивизъм на ProPublica. Докато се съсредоточавам върху този набор от данни, двугодишният набор от данни за насилственрецидивизъм, който ProPublica същосъздаде страдаот същия проблем с обработката на данни, който идентифицирам тук.

Тази публикация в блога е краткаверсия на моята предишна„публикация“ към науката за данни. Пълнаверсия на моя документ е достъпнав arXiv. (създадох и хранилище на GitHubс програмата R, която написах, за да направя своя анализ)

Аз съм щатен икономист във Федералната търговска комисия. Това проучване беше проведено независимо от работата ми във FTC. Възгледите, изразени в тази статия, са тези на автора. Те не представляват непременно тези на Федералната търговска комисия или някой от нейните членове.

Грешката при обработката на данни в изявен набор от данни за справедливо машинно обучение (кратка версия)

Резултатът на ProPublica COMPAS и данните за рецидивизма

Бележки под линия

Подобни въпроси