Данни за мобилност, инженеринг на функции и йерархично групиране

Съединените щати имат един от най-големите автомобилни пазари в света, втори след Китай. С 270,4 милиона регистрирани превозни средства към 2017 г. по американските пътища има милиони катастрофи всяка година. Според Националната безопасност на движението по магистралите през 2016 г. в САЩ е имало приблизително 7 милиона катастрофи с моторни превозни средства, докладвани от полицията. Това е довело до около 207 милиона долара загуби от сблъсък през 2016 г. Възможността да се предвиди вероятността водачът да попълни иск през следващите месеци предоставя на застрахователя възможността да коригира премиите и да планира провизиите предварително.

Прилагането на предсказуем анализ към застрахователни искове не е нищо ново, но сме свидетели на преход от класически, статични и общи модели, базирани на данни (възраст на водача, възраст на шофьорска книжка, тип кола и т.н.) към модели, базирани на действително поведение при шофиране (внезапно спирачни и други видове индикатори за необичайно поведение при шофиране).

Този преход се движи главно от появата на рамки за големи данни и тяхната способност да манипулират и анализират по-големи и по-малко структурирани набори от данни. Това накара някои компании да започнат да събират данни, свързани с моделите на шофиране, като използват устройствата, инсталирани от застрахователните компании в колата на застрахованото лице.

Инженеринг на характеристиките

Въпреки че съществуват редица устройства за наблюдение и регистриране на данни, предоставени от автомобила, има големи различия в качеството на наличните елементи от данни между по-старите и по-новите модели. Следователно в портфолиото на даден застраховател голяма част от събраните данни може да съдържа много по-малко информация и данните са много нехомогенни. Създаването на набор от информативни функции на драйвера за захранване на ML модели в този контекст е истинско предизвикателство; Време е да помислим отвъд преките данни...

Общият брой на записите, с които разполагахме, беше около 123 милиона записи, представляващи пътувания на само две хиляди лица за различни периоди от време, вариращи от един месец до 18 месеца.

От клеймо за време, координати и скорост конструирахме ускорението, рутинните пътувания(ако шофьорът винаги спира на едни и същи координати, напр. до/от работното място или посещава много различни места подобни маршрути (ако се използват едни и същи маршрути, за да се стигне до тези места, т.е. водачът винаги следва подобна последователност от координати или се държи по по-произволен начин, следвайки различни маршрути). период от време, през който превозното средство се управлява, за да се определи дали е шофьор тип пътуване през уикенда, обикновен шофьор или шофьор в час пик.

Друго нещо, което си струва да разгледате, е покритият район при пътуване и дешифриране на шофьори, които имат много кратки местни пътувания спрямо дълги пътувания по „права линия“ от много километри. Това надхвърля обичайното проектиране на автоматични характеристики и изисква концепции за изследване на мобилността като радиус на въртене, максимална покрита площ, предвидимост на мобилността въз основа на ентропия и други. Разбира се, всички горепосочени количества след това се разглеждат в различни скали за периоди от време (като седмица, дни, месеци) и се обобщават (средно, стандартни отклонения, ексцес от степен 1,2,3...), за да се създаде набор с повече от 500 функции.

За да усъвършенстваме нашето моделиране, ние също се възползвахме от многото външни източници на данни, достъпни онлайн, чрез използването на публични API. Например, включихме информация за часовете на изгрев/залез, за да определим нощното шофиране. Публичните метеорологични институции предоставят (В Испания, където е проведено проучването, можете да получите достъп до тази информация на адрес http://www.aemet.es/es/datos_abiertos/AEMET_OpenData) достъп до исторически данни за дъжд, вятър и температура на различни точки в географията, които също включихме, за да моделираме условията на шофиране.

Openstreetmaps предоставя, наред с много други данни, ограничения на скоростта за някои пътища в различни точки (въпреки че трябва да се внимава, тъй като това е публично предоставена база данни и следователно целостта на данните трябва да бъде проверена). Използва се заедно с данните, предоставени от API за геокодиране на google maps и Wikipedia, позволява да се определи името на пътищата и дали са магистрали или градски райони. Всички тези данни помагат за изграждането на по-подробен профил на водача, независимо от данните, които автомобилът може да предостави. В крайна сметка, включвайки както характеристиките, идващи от самите измервания на автомобила, така и тези, конструирани от публични данни, създадохме набор от 1200 функции, които бяха включени в нашите ML модели.

Ентропия

Един от начините да отидете отвъд директните измервания на мобилността (разстояние, скорост...) е да мислите от гледна точка на рутините на хората. Тоест преминаване от подход на физически домейн (колко километра пътувате, с каква скорост) към подход на символичен домейн (какви места посещавате, колко често...). Например, двама индивида могат да изминат 10 км на ден, докато показват много различно поведение; например, един от тях може да пътува от вкъщи до работа и обратно, докато другият отива на фитнес, след това на работа, след това на училище за децата си и след това отново вкъщи. Следователно тези двама индивида, въпреки че имат един и същ профил на физически домейн, показват много различен символичен профил на домейн. Друг пример може да бъде този на двама индивида, пътуващи до 5 различни места на ден, като единият от тях пътува до абсолютно същите 5 места, докато другият ще посещава едни и същи две места всеки ден и ще редува другите три от ден на ден.

Ключовата концепция тук е индивидуалната предсказуемост или начинът за заобикаляне на неговата случайност. Ако един индивид посети 5 различни места за един ден, докато вторият индивид посети само 2 места, първият индивид е по-случаен, тъй като неговата история на движение включва по-голяма несигурност (ако трябва да познаете къде е първият индивид, вероятността от да го направиш правилно е 1/5=0,2, докато за другия е 1/2=0,5).

Сега въпросът е как да обобщим тези измерения на човешката мобилност? Една концепция, която прекрасно улавя нивото на случайност в поредица от събития, се намира в областта на теорията на информацията и е известна като ентропия. Ентропията на Шанън взема предвид разпределението на събитията в последователността и осигурява стойност, представляваща „очакваната изненада“ или несигурността, оградена от случайна променлива (последователността от посетени места в нашия случай). Когато всички стойности на случайната променлива имат еднаква вероятност за възникване, тогава ентропията на Шанън достига максималната си стойност, известна още като ентропия на Хартли.

За нашия модел включихме необработената стойност на ентропията на Шанън, както и нормализирана от ентропията на Хартли за последователностите от посетени точки и точки за спиране, обобщени за ден, седмица, делничен ден, уикенд и месец (точки, в които индивидът е спрял за повече от 30 минути ).

Йерархично групиране

В този конкретен проблем един ключов момент в възможността за разширяване на набора от данни с външни източници е да можете да филтрирате броя на точките от данни. Наистина, както бе споменато по-рано, регистрационните файлове обхващат средно повече от година и точките от данни се записват на всеки 30 секунди (в най-добрия случай), което води до милиони точки от данни за всеки драйвер. Поради ограниченията на броя на обажданията към различните API и времето, необходимо за обработка на HTTP заявката, не е възможно да се получи информация за всяка отделна точка в набора от данни. Тогава въпросът е как да изберем най-добрите точки, за които да извлечем тази информация?

Начинът, по който решихме този конкретен проблем, е чрез клъстериране. Съществува обаче голямо разнообразие от алгоритми за клъстериране, така че следващият въпрос е кой да използваме?

Излишно е да казвам, че наличието на 2000 различни драйвери, разпръснати из испанската география и носещи различни устройства за събиране на данни, води до различни истории на местоположениякъдето клъстерирането трябва да има смисъл. Поради тази причина беше предизвикателство да се работи с алгоритми, зависещи от предварително зададени параметри, тъй като те трябваше да бъдат коригирани за всеки отделен случай. Поради тази причина ние отхвърлихме обикновените техники за клъстериране, като k-NN, защото не можем да знаем крайния брой на клъстерите. Алгоритмите за клъстериране, базирани на плътност, също бяха отхвърлени, защото се оказаха доста чувствителни към хиперпараметрите. За да илюстрираме това, проведохме няколко теста, за които показваме резултатите в изображенията по-долу. В лявото изображение виждаме резултата от клъстерирането на пътуванията на потребител с помощта на HDBSCAN, алгоритъм, базиран на плътност, с минимален брой точки на клъстер, равен на 2, и минимално разстояние, равно на 10, докато в дясното изображение параметрите се променят съответно на 10 и 10. Както може да се види, има огромна разлика между резултатите, само за този конкретен водач и района на града. По този начин алгоритмите, базирани на плътност, бяха отхвърлени, тъй като това би изисквало настройка на различен набор от параметри за всеки драйвер във всеки сценарий.

Накрая вместо това се обърнахме към йерархично групиране. Това семейство от алгоритми се нуждае само от максималното разстояние между точките на клъстера, за да изпълни задачата си, което зададохме на 100 m за всички водачи, тъй като това е детайлността, която искахме да отразява пътуването на водачите. Не е необходимо да се задават други параметъри, нито краен брой клъстери или брой точки на клъстер. Сред различните алгоритми за йерархично клъстериране, ние се фокусирахме само върху два от тях поради ограничения на паметта: CLINK и SLINK. Основната разлика между двете е как да се изчисли разстоянието между клъстерите: SLINK измерва разстоянието между най-близките точки на два предишни клъстера, за да реши дали да ги обедини или не, докато CLINK измерва разстоянието между най-отдалечените точки. По този начин CLINK е по-подходящ за нашите цели, така че да сме сигурни, че няма две точки, които са най-отдалечени от прага (при SLINK най-близките точки на двата обединени клъстера са под прага от 100 m, но нямаме представа за какво се случва с останалите точки от двата клъстера, които могат да бъдат много по-далеч, като по този начин покриват различни улици или пътища с различни ограничения на скоростта или тип път).

Изображението по-долу илюстрира вида резултати, които можем да постигнем, използвайки CLINK за нашия проблем. Изображението от лявата страна представлява групираните позиции на конкретен драйвер, докато това от дясната страна е оригиналното изображение с всички събрани позиции. Може да се види, че клъстерирането ни позволява значително да намалим броя на точките с минимална загуба на информация, тъй като всички пътувания и предприети пътища все още могат да бъдат идентифицирани.

Използването на алгоритъма CLINK ни позволява да групираме близките точки, намалявайки излишъка, като същевременно запазваме различна детайлност на градско ниво (необходими са по-близки точки от данни, за да се профилират изместванията в града) и на ниво магистрала (промените са по-редки както в скоростта, така и в ускорението, което позволява по-голяма премахване на излишъка без загуба на точност). Освен това въведохме пространствени индекси в базите данни, за да споделяме ефективно географска информация между водачите. Това позволява например да се екстраполира типът път и ограничението на скоростта към пътувания на шофьори с много сходни координати, което в известен смисъл се равнява на групиране между различни шофьори.

Заключение

Ключът към успешното извличане на прогнозни анализи от сценарии от реалния живот често е свързан повече с данните, отколкото със сложността на алгоритъма. Става въпрос за креативност и възможност за извличане на новаторски атрибути, които разкриват сложността на данните. Само тогава алгоритмите за моделиране ще могат да използват пълния потенциал на данните и да предоставят най-добрите прогнози.

Тази работа е направена от Алисия Родригес, старши учен по данни и Флориан Лионет, главен учен по данни в GDSLINK.

Данни за мобилност, инженеринг на функции и йерархично групиране

Инженеринг на характеристиките

Ентропия

Йерархично групиране

Заключение

Подобни въпроси