Fraud Anomaly Model, усъвършенствана техника, използвана при откриване на измами, играе решаваща роля при идентифицирането на подозрителни модели и точки от данни, които могат да показват измамна дейност.

Моделът е специално проектиран да се учи от исторически данни и да използва тези знания за откриване на потенциални измами в реално време.

Тъй като измамните дейности продължават да се развиват и усложняват, традиционните методи, базирани на правила, и ръчните прегледи не успяват да се справят с новите тенденции в измамите.

Тази статия се задълбочава в значението на модела за аномалия при измами и изследва как ML се използва за справяне с предизвикателствата, породени от измамни дейности.

Разбиране на измамите и тяхното откриване

Измамата, особено в контекста на сторнирания на плащания или потенциални връщания на плащания, които са резултат от неупълномощени транзакции, създава значителни финансови загуби и рискове за сигурността както за бизнеса, така и за физическите лица.

Традиционните инструменти за предотвратяване на измами включват системи, базирани на правила, които предлагат гъвкавост за конкретни потребители или индустрии, и ръчни прегледи от човешки анализатори, които осигуряват висока точност, но им липсва мащабируемост, за да се справят с големи обеми транзакции.

В допълнение, моделите за машинно обучение за измами, макар и мащабируеми, често се затрудняват да открият точно нови модели за измами, които не са били срещани преди (т.е. няма исторически сторнирания на плащания с подобни модели).

Моделът за аномалия при измами представя решение на два основни проблема, пред които е изправено откриването на измами:

2 оставащи проблема

  • По-бързо откриване на тенденции при измами: Истинското предизвикателство при откриването на измами се крие в незабавното идентифициране на тенденции в приетите транзакции, които могат да показват измамна дейност. Моделите на аномалии използват машинно обучение, за да анализират ефективно огромни количества данни, което прави възможно бързото откриване на необичайни модели.
  • По-лесно откриване на нови измамни атаки: Тъй като измамниците непрекъснато адаптират своите тактики, за да избегнат откриването, традиционните модели се борят да бъдат в крак с тези нови атаки. Моделите на аномалии са отлични при идентифицирането на нови измамни атаки, дори без исторически данни за сторнирани плащания, показващи подобни модели.

Принципите на работа на модела за аномалия при измами

Моделите на аномалии се основават на анализ на точки от данни, целящи да идентифицират модели, които се отклоняват значително от нормата. На всяка точка от данни се присвоява оценка за аномалия въз основа на нейната разлика от останалите данни.

По-високите резултати за аномалии показват по-голяма вероятност от потенциална измама, което сигнализира за необходимостта от допълнително разследване.

Ключови стъпки при внедряването на модел на аномалия при измами:

1. Набор от данни, характеристики и цел — EDA

Проучвателният анализ на данни (EDA) е подход за визуализиране, обобщаване и интерпретиране на информацията, която е скрита във формат на редове и колони. В този случай вземам моя примерен набор от данни и визуализирам резултатите и значението на резултатите.

  • Набор от данни: Колекция от екземпляри е набор от данни в рамките на цялата 2019 година.
  • Характеристика: Една колона (Тя е компонент на наблюдение) от данни се нарича функция. В момента моделът използва 55 функции.
  • Цел: Измамата е 1, а Не-измамата е 0

Примерна целева визуализация на набора от данни

АКЦЕНТИ:

  • Разпределението на Target (измама или не) е силно дисбалансирано.
  • В някои сегменти измамите са по-разпространени, отколкото в други, като например пазари по партньор и метод на плащане.
  • По време на проучвателния анализ на данни (EDA) е от съществено значение да се наблюдават корелациите, които стават решаващи фактори за специалистите по данни, за да коригират алгоритъма.

Например, по време на проучвателния анализ на данни (EDA), наблюдавах корелации между различни характеристики:

  • Характеристики с високи корелации (по-големи или равни на 0,7):
  • OrderTotalAmount и FlightProductCost
  • TotalNumberOfLegs, TotalNumberOfInboundSegments и NumberOfStopOvers
  • TotalNumberOfPassengers и TotalNumberOfAdults

Числова характеристика EDA

Той изпълнява, за да дефинира и усъвършенства нашия избор на променливи за важни функции, които ще бъдат използвани в нашия модел

Обучение по модел: Модел на изолирана гора

Алгоритъмът Isolation Forest е популярен избор за откриване на аномалии в данните. Той създава гора от дървета на решения, където всяко дърво изолира точка от данни чрез произволен избор на функция и генериране на разделени стойности.

Броят на разделянията, необходими за изолиране на точка от данни, служи като нейна оценка за аномалия. По-ниският брой на разделяне показва по-високи резултати за аномалия, което предполага по-аномална точка от данни.

Изолирайте вътрешната част

Изолирайте отклонението

Съществува тенденция в набор от данни да бъде ПО-ЛЕСНО отделянето на анормална точка от останалата част от извадката в сравнение с нормалните точки.

За да изолира точка от данни, алгоритъмът рекурсивно генерира дялове на извадката чрез произволен избор на функция и след това произволно избиране на разделена стойност за характеристиката между минималните и максималните стойности, разрешени за този атрибут.

3. Тестване и прогнозиране на модела

Ефективността на модела се оценява с помощта на показатели за припомняне и прецизност. Recall измерва степента на покритие на измами (т.е. процентът на откритите аномалии, които са действителни случаи на измами). Прецизността или точността на модела оценява съотношението на истинските аномалии, идентифицирани правилно от модела.

Някои бележки, които да отговарят на процеса на обучение

  • Данните за влака се използват по време на учебния процес и за да се поберат в модела
  • Данните от теста се използват за осигуряване на безпристрастна оценка на крайния модел

  • Припомняне (процент на покритие на измами): Този показател измерва дела на действителните случаи на измами, които са правилно идентифицирани от модела. Изчислява се като съотношението на броя на откритите истински случаи на измами към общия брой на действителните случаи на измами.

Припомняне = Истински положителен / (Истински положителен + Невярно отрицателен) = Брой аномалии и измами / Общ брой измами

  • Прецизност (Точност на модела): Прецизността измерва дела на маркирани аномалии, които са истински случаи на измама, спрямо всички маркирани аномалии. Помага да се оцени точността на модела при правилно класифициране на аномалии.

Прецизност = Истински положителен / (Истински положителен + Невярно положителен) = Брой аномалии и измами / Общ брой аномалии

  • Резултат F1: Резултатът F1 е хармоничната средна стойност на припомняне и прецизност. Той осигурява баланс между двата показателя, като предлага цялостна оценка на цялостната производителност на модела.

Резултат F1 = 2 * (прецизност * припомняне) / (прецизност + припомняне)

Сравнение с модел на фиктивен класификатор: За да се установи базова линия за сравнение, ефективността на модела се сравнява с тази на фиктивен класификатор. Фиктивният класификатор генерира прогнози въз основа на класовото разпределение на данните за обучение.

  • Например, в набор от данни с коефициент на измами от 0,9%, фиктивният класификатор ще класифицира произволно 0,9% от случаите като аномалии.
  • Очаква се моделът за аномалия при измами да надмине фиктивния класификатор по отношение на припомняне, прецизност и резултат F1.

Като следват тези изчерпателни стъпки за оценка, организациите могат да получат ценна представа за ефективността на техния модел за аномалия при измами, което им позволява да вземат информирани решения и да засилят своите стратегии за откриване на измами.

Заключение

Моделът за аномалии при измами е ефективна и мащабируема стратегия за справяне с динамичния характер на измамната дейност.
Моделите за аномалии могат бързо да открият нови модели на атаки и тенденции в измамите чрез използване на машинно обучение, което конвенционалните системи, базирани на правила и ръчни оценки може да пренебрегне.

Тъй като измамите продължават да представляват значителна заплаха за бизнеса и потребителите, приемането на усъвършенствани техники за откриване на измами като модела за аномалии на измами става все по-важно за защитата на финансовите интереси и сигурността на данните.

Следвайте ни в YouTube: https://youtube.com/@cybernova