Откриване на измами с подпис – усъвършенстван подход за анализ

В моята предишна статия обсъдих разширено приложение за анализ в областта на измамите по общ начин. В тази статия ще се задълбоча в подробности в конкретна област на фалшифицирането на подпис при измами. Нищо чудно, че институциите и фирмите разпознават подписите като основен начин за удостоверяване на транзакции. Хората подписват чекове, упълномощават документи и договори, валидират транзакции с кредитни карти и проверяват дейностите чрез подписи. Тъй като броят на подписаните документи — и тяхната наличност — се е увеличил неимоверно, нараства и броят на измамите с подписи.

Според скорошни проучвания само измамите с чекове струват на банките около 900 милиона долара годишно, като 22% от всички измамни чекове се приписват на измама с подписи. Ясно е, че с повече от 27,5 милиарда (според The ​​2010 Federal Reserve Payments Study) чекове, написани всяка година в Съединените щати, визуалното сравняване на подписи с ръчно усилие върху стотици милиони чекове, обработвани ежедневно, се оказва непрактично.

Появата на големи данни, на разпределени Hadoop-базирани платформи като MapR, направи възможно икономичното и ефективно съхраняване и обработка на големи количества сигнатурни изображения. Това позволява на предприятията да използват изчерпателни исторически данни за транзакции, за да открият модели на сигнатури за измами чрез разработване на алгоритми, които могат да автоматизират традиционното визуално сравнение.

Изкуството и науката на подписите:

Преди да преминем към типовете автоматизирани типове проверка на подписа и подробния метод, нека разберем някои концепции, свързани с процеса на подписване и някои популярни митове, видове фалшифициране на подписи и следователно вратички в конвенционалното визуално сравнение на статични изображения на подписи.

Мит: Автентичните подписи на едно и също лице ще бъдат абсолютно еднакви във всички транзакции

Реалност: Физическият акт на подписване на подпис изисква координиране на мозъка, очите, ръцете, пръстите, мускулите и нервите. Имайки предвид всички фактори в играта, не е чудно, че хората не подписват името си по един и същи начин всеки път: някои елементи може да бъдат пропуснати или променени. Личността, емоционалното състояние, здравето, възрастта, условията, при които отделните знаци, налично място за подпис и много други фактори влияят върху отклоненията от подпис до подпис.

Видове фалшификации на подписи:

В реалния живот фалшифицирането на подпис е събитие, при което фалшификаторът се фокусира основно върху точността, а не върху плавността.

Гамата от фалшификати на подписи попада в следните три категории:

1. Случайно/сляпо фалшифициране — обикновено има малко или никакво сходство с истинските подписи. Този вид фалшификация се създава, когато фалшификаторът няма достъп до автентичния подпис.

2. Неквалифицирана (проследена) фалшификация: Подписът е „проследен“, изглеждащ като слаба вдлъбнатина върху листа хартия отдолу. След това тази вдлъбнатина може да се използва като ръководство за подпис.

3. Умела фалшификация — Произведена от извършител, който има достъп до един или повече проби от автентичния подпис и може да го имитира след много практика. Умелата фалшификация е най-трудната за удостоверяване от всички фалшификации.

Една ефективна система за проверка на подписа трябва да има способността да открива всички тези видове фалшификации посредством надеждни, персонализирани алгоритми.

Проблем с ръчната проверка:

Поради субективно решение и варира силно в зависимост от човешки фактори като опит, умора, настроение, условия на работа и т.н., ръчната проверка е по-податлива на грешки и непоследователна, в случай на квалифицирана фалшификация (офлайн метод) води до следните случаи:

Фалшиво отхвърляне: Отбелязването на транзакции като измамни (когато не са) е погрешно отхвърлено, създавайки отрицателно въздействие върху удовлетвореността на клиентите, често наричано грешка от тип I.

Фалшиво приемане: истински подпис и квалифицирана фалшификация, които операторът е приел за автентичен подпис, което води до финансова и репутационна загуба, често наричана грешка от тип II.

Целта на една точна система за проверка е да минимизира и двата вида грешки.

Отличителни черти:

Нека разберем характеристиките на подписа за човек, проверяващ документи, за да различи измамите от истинските. Следва неизчерпателен списък на статични и динамични характеристики, използвани за проверка на подписа:

· Нестабилен почерк (статичен)

· Повдигане на писалката (динамично)

· Признаци на ретуш (статични и динамични)

· Пропорции на буквите (статични)

· Подпис Форма/размер (статичен)

· Наклон/ъгъл (статичен)

· Много близко сходство между два или повече подписа (статично)

· Скорост (динамична)

· Натиск на писалката (динамичен)

· Модели на промяна на налягането (динамични)

· Модел на ускорение (динамичен)

· Гладкост на кривите (статично)

Въз основа на средата за проверка и условията за вземане на проби, не всички функции са налични за анализ

Видове система за автоматична проверка на подписа:

Както беше обсъдено в зависимост от осъществимото (налично) извличане на характеристиките на подписа и бизнес/функционалните изисквания, на пазара съществуват общо две категории системи за проверка на подписа.

A) Офлайн проверка на подписа: Внедрява се, когато няма възможност за наблюдение на активността на подписа в реално време на дадено лице. В приложения, които проверяват подписани хартиени документи, само статично, двуизмерно изображение е достъпно за проверка. По очевидна причина в този тип двигател за проверка, динамични характеристики. За да се отчете загубата на тази важна информация и да се получат много точни резултати за сравнение на подписи, офлайн системите за проверка на подписи трябва да имитират методологиите и подходите, използвани от съдебномедицинските експерти по документи. Този метод е силно зависим от досадна предварителна обработка на изображението (мащабиране на изображение, преоразмеряване, изрязване, завъртане, филтриране, хистограма на ориентирани градиенти, задържане на прага, хеш маркиране и т.н.) и умели умения за машинно обучение. Функциите, които се използват основно тук, са статични по природа — текстура на изображението (wavelet дескриптори), геометрия и топология (форма, съотношение на размера и т.н.), позиции на щрихи, сходство на почерк и др.

Въпреки че има много ограничения, в повечето транзакции с чекове в реалния живот и подписите за проверка на цифрови документи се изпълняват предварително и няма обхват на наблюдение на подписа в реално време за улавяне на динамичните характеристики.

За офлайн проверка на подписа задачите за машинно обучение могат да бъдат допълнително категоризирани в 1) Общо обучение (независимо от човек) - Задачата за проверка се изпълнява чрез сравняване на въпросния подпис с всеки известен подпис в съотношение 1:1 и 2) Специално обучение (което е person-dependent) — За да се провери дали въпросният подпис попада в обхвата на вариация сред множество множество истински подписи на едно и също лице.

B) Онлайн проверка на подписа: Подписването е рефлексно действие, базирано на повтарящо се действие, вместо умишлено контролиране на мускули и дори точните фалшификати отнемат повече време за създаване от истинските подписи. Както подсказва името, в този тип система за проверка е възможно улавянето на ключови динамични характеристики, като скорост, ускорение и налягане и т.н. Този тип система е по-точна, тъй като дори за копирната машина или експерт е практически невъзможно да се имитират уникални модели на поведение и характеристики на оригиналния подписал.

Кратко описание на експеримента:

Нека обсъдим опростено решение за офлайн проверка в симулирана среда. За това изследване бяха подготвени данни от 40 лица, всеки от които е дал 25 подписа и по този начин има 1000 истински подписа. След това субектите се избират на случаен принцип, за да фалшифицират подписа на друго лице, с 15/индивидуално, така че има 600 (прилична извадка от измами) фалшификати. Сега с 25 истински подписа/човек и 12 фалшиви подписа/човек данните се разделят произволно на данни за влак (75%) и данни за валидиране (25%), като се гарантират най-малко 15 истински подписа/данни за влак от лице. Целта е да се изгради офлайн алгоритмична система за проверка на подписа с независим от човека метод на обучение, механизъм за определяне дали въпросният подпис от валидирането принадлежи на конкретно лице или не.

Фигура: Образец на оригинален подпис Фигура: Образец за физическо лице (автентичен и подправен)

Рамка на решението:

Независимо от човек контролирано обучение: Проблемът с обучението се преобразува в проблем с класификация от два класа, където входът се състои от разликата (несходството) между двойка сигнатури и шансовете за поява на истински сигнатури се изчисляват по отношение на съотношението на вероятността (LR) от подходящо параметрично разпределение на разстоянието (резултат за несходство на сдвоени подписи) както за добра (автентична), така и за лоша (подправена) популация. След това на съмнителен подпис на лице от неговия истински подпис се приспособява към разпределението, за да се изчисли LR резултат и въз основа на LR и предварително определена прагова стойност (на базата на максимална точност) решението за класифициране, което трябва да се вземе, независимо дали въпросният е или не подпис (от тестови данни) е автентичен w.r.t. конкретно лице.

Моделно уравнение

Където

• P(Dg(i)|d) е стойността на функцията за плътност на вероятността за Dg(истинското) разпределение на разстояние d

• P(Db(i)|d) е стойността на функцията за плътност на вероятността за Db(ковано) разпределение на разстояние d

  • N е броят на известните проби от човек за сравнение 1:1

• Ψ е предварително определена прагова стойност ›1

Въпреки че задачата за моделиране е ясна, много предварителна обработка на изображението е необходима за изчисляване на разстоянието/вектора на разстоянието (d) между сигнатурните двойки въз основа на извлечени статични характеристики. Също така подходящ параметричен избор на модел и настройка с оптимална гранична стойност.

Включени стъпки:

A) Извличане на характеристики: Това е силно техническа област и включва сложна обработка на изображения за извличане на дискриминиращи елементи и комбинация от елементи за конкретно лице.

1) Предварителна обработка на изображението и формиране на решетка: Всеки подпис е преминал през процес на премахване на шума от сол и черен пипер и нормализиране на наклон след трансформация в сивата скала. След това след подходящо преоразмеряване, изрязване и друг процес на увеличаване, всяко изображение се реконструира с решетка 4x7

.2) Извличане на вектор на двоични характеристики: Извличане на карта на характеристиките на GSC (градиент, структура и вдлъбнатина) от мрежата на изображението на пикселите и съответната локална хистограма клетка се квантува във вектор на двоични характеристики от 1024 бита (сумиране на битове на характеристики G, S и C).

Фигура: Решетка на изображението и 1024-битов вектор на двоични характеристики

B) Мярка за сходство (разстояние): Разработване на Gaussian landmark (exp(−rij2/2σ2)) набори за съвпадение от точка до точка на сдвоени изображения и цялостна мярка за сходство или разстояние се използва за изчисляване на резултат, който означава силата на съвпадение между два подписа . Мярката за подобие преобразува данните по двойки от пространство на признаци в пространство на разстояние. Няколко. Тук се използва методът на разстоянието на Хеминг.

(Извинение, че не разработих тези теми тук поради ограничение на пространството и ще бъдат обсъдени в отделна публикация.)

C) Обучение на модела (напасване на разпределението): Тези разстояния по двойки (d) от данни за влак са категоризирани в два вектора, Dg- вектор на разстояния между всички двойки истински подписи (пробите наистина идват от едни и същи лица) и Db- вектор на разстояния между всички двойки фалшиви подписи (проби идват от различни лица). Тези два вектора на разстоянието могат да бъдат моделирани с помощта на известни разпределения като Гаус или гама. За този пример гама разпределението пасва добре на данните.

D) Съотношение на вероятност (LR) и решение за класифициране: За съмнителен подпис на конкретно лице от немаркирани данни (тук от валидиране) след това се съпоставя 1:1 с истинския подпис на лицето след описаната по-горе предварителна обработка и резултат от разстояние (несходство по двойки) се проектира спрямо монтираната крива на плътност, за да се получи LR стойност -P(Dg|d)/ P(Db|d). Ако коефициентът на вероятност е по-голям от 1, тогава решението за класифициране е, че двете проби наистина принадлежат на едно и също лице и ако съотношението е по-малко от 1, те принадлежат на различни лица. Ако има общо N известни проби от дадено лице, тогава за една въпросна проба може да се извърши N проверка 1:1 и съотношенията на вероятността да се умножат. За удобство се приемат логаритмични съотношения на вероятност (LLR), а не съотношения на вероятност.

Фигура: Съвпадение на разпределението и решение за класификация

Оценка на ефективността: Горното разпределение, въпреки че има забележима зона на припокриване, е свършило работата си сравнително добре при разграничаването на два региона (автентичен и измама). Очевидно границата на решение е дадена от знака на LLR и модифицирана граница на решение може да бъде конструиран с помощта на праг α, така че log P(Dg|d)−log P(Db|d) ›α. Точността на модела, определена като [1-((фалшиво приемане+фалшиво отхвърляне)/2)] е максимална при определена стойност на α. Това включва настройка на модела и най-добрата настройка на α се обозначава като работна точка за определения брой известни проби. В ROC криви, генерирани с различен брой известни проби (от 12–15), работната точка е показана като „*“. Общата точност е около 77%.

Фигура: Настройка на модела и производителност

Подобрение и път напред:

Чрез този експеримент и опростено решение се постига умерена точност. Въпреки това, точността може да бъде подобрена с по-големи данни за обучение, напасване и групиране с други модели, включително непараметрични методи (задълбочено обучение, CNN и т.н.). Също така включването на други мерки за разстояние (напр. разстояние на Levenshtein, разстояние на скосяване) между двойки изображения като допълнителни функции и/или с вземане на проста/претеглена средна стойност на тези характеристики на различие би направило мярката за различие по-стабилна и надеждна, за да добави повече дискриминационна сила към модела.

И накрая, най-модерните системи за проверка на подписа трябва да бъдат адаптивни, гъвкави и точни. Това изисква задълбочен анализ на непрекъснато нарастващи набори от данни и непрекъснати актуализации на производствените модели, така че ефективността да остане стабилна с времето, за разлика от резултатите, постигнати в ситуации с голям обем с човешки оператори.