„Наука за данни в реалния свят“

3 урока от стажант по журналистика на данни във Fin-Tech Startup

Научете за уроците, които научих от стажа в стартиращ Fin-Tech, който използва машинно обучение, за да направи революция в индустрията за кредитно поемане.

Докато навлизаме в есенния сезон, реших да отделя време, за да обмисля моя 14-седмичен летен стаж като журналист по данни за Zest Finance в Лос Анджелис, Калифорния.

Ако не сте запознати с моя опит, в момента съм магистър и влизам в последната си година в аспирантура, докато уча компютърни науки. Как се озовах в ZestFinance? Кандидатствах онлайн и специалистът по подбор на персонал намери опита ми за интересен, премина през процеса на интервю и в крайна сметка прие предложението да дойда в офиса им за лятото като един от 12 стажанти.

Целта ми е да споделя някои от ключовите уроци, които научих от това незабравимо преживяване.

Какво е ZestFinance?

Мисията на компанията е да направи справедлив и прозрачен кредит достъпен за всички. Според сайта на компанията:

Кредитната индустрия за няколко трилиона долари все още разчита на стареещи техники за оценяване, които прекалено опростяват представата за финансите на кредитополучателя. В резултат на това милиони заслужаващи кредитополучатели се отхвърлят през цялото време. Около 46 милиона американци са или „кредитно невидими“, без досие в едно от трите основни кредитни бюра, или „неподлежащи на оценка“, с недостатъчна информация за генериране на кредитен рейтинг. Това е провал на съвременната кредитна система.

Кредитните модели, базирани на машинно обучение, могат да генерират по-печелившо застраховане чрез извличане на по-задълбочени познания от повече данни, особено неизползвани банки данни, които вече имат. ZestFinance беше една от първите компании, които внедриха модели за машинно обучение за кредитиране и ние знаем, че работи.

Автоматизираното машинно обучение (ZAML) на Zest

По-конкретно, прекарах лятото си в работа върху ZAML, собствената платформа за автоматизирано машинно обучение на Zest. ZAML позволява на заемодателите да анализират нетрадиционни данни, включително данни, които вече имат вътрешни, като данни за поддръжка на клиенти, хронология на плащанията и транзакции за покупки. Платформата може също така да вземе предвид традиционната кредитна информация и нетрадиционните кредитни променливи, като например как клиентът попълва формуляр, как навигира в сайта на кредитора и др. Въпреки че проблемът с черната кутия забави приемането на машинно обучение в потребителските финанси, ZAML е в състояние напълно да обясни резултатите от моделирането на данни, да измери бизнес въздействието и да спазва регулаторните изисквания.

Като журналист с данни бях горд член на екипа на Data Science. По-конкретно, моите отговорности включват: (1) Откриване на тенденции и прозрения от големи и малки набори от данни, за да разкажа истории с данни, (2) Използване на вътрешни и външни източници на данни за анализ, моделиране и визуализации и превеждането им в тематични разкази, доклади и бели книги и (3) Евангелизиране на изследователски инициативи в областта на науката за данни, като същевременно работим междуфункционално с екипа по маркетинг, за да определим количествено нарастващото им въздействие и уместност.

Сега, след като знаете малко повече за екипа и моята роля, нека се потопим в някои от основните прозрения, които взех от този стаж.

Минимален жизнеспособен анализ

Тази концепция от отлична статия от Конър Дюи е тази, към която непрекъснато се връщах през цялото лято (вижте и моето интервю с Datacast с него!). Публикацията говори за концепцията за Минимален жизнеспособен анализ, което означава, че специалистите по данни могат да постигнат постепенен напредък и не предполагат, че заинтересованите страни се нуждаят от най-сложното налично решение.

Процесът на изготвяне на MVA е доста ясен: (1) Разберете ясно конкретния бизнес проблем, (2) Създайте бързи и повърхностни прозрения за справяне с проблема, (3) Комуникирайте резултатите обратно на заинтересованите страни и получете техните мисли и (4) Завършете анализа или се задълбочете.

Имайки предвид тази рамка, успях да създам много различни итерации за историите с данни/техническите доклади/публикациите в блогове, които работех по това време. Заинтересованите страни в моя случай бяха други специалисти по данни в екипа, както и няколко ръководители в различни функционални отдели.

Когнитивно разнообразие

Имах голям късмет да бъда в позиция, в която мога да взаимодействам с колеги от множество функции, включително наука за данни, маркетинг/дизайн, правни, бизнес анализи, управление на продукти и софтуерно инженерство. Това ми позволява да се докосна до това, което наричам когнитивно разнообразие— разлики в перспективата или стиловете за обработка на информация. С други думи, това е как хората мислят и се ангажират с нови, несигурни и сложни ситуации.

Предвид хипотетичен пример за прилагане на модел на машинно обучение, за да се определи дали кандидат за заем/кредит е отхвърлен или одобрен, ето няколко ментални модела за справяне с това:

  • Учен по данни се грижи за това как да проектира перфектния експеримент, за да постигне най-добрите модели.
  • Софтуерен инженер се грижи за това как да създаде правилната инфраструктура, за да пусне моделите в производство.
  • Маркетологът се грижи за това как да съобщи на обществеността уникалните характеристики, които моделите използват.
  • Юридическият съветник се грижи за това как да се справи с потенциалния риск и съответствието, свързано с резултатите от модела.
  • Бизнес анализаторът се грижи за това как да изчисли бизнес въздействието, което моделът може да има за клиентите.
  • Продуктовият мениджър се грижи за почти всичко, споменато по-горе.

Ако има нещо, за което съм наистина благодарен, това беше огромното количество умствени модели, които успях да разработя. Като се научих да изслушвам различни мнения и да говоря/пиша на езика на моите колеги по начин, който те разбират, усъвършенствах мускулите си да мисля многостранно — способността да решавам проблеми, използвайки индиректни и креативни подходи чрез разсъждения, които не са веднага очевидни .

Знания за домейн

Нямам почти никакви познания за кредитното поемане, преди да направя този стаж в ZestFinance. Но след лятото знам много за тази вековна индустрия:

  • Около 26 милиона американци се считат за „кредитно невидими“ от федералното Бюро за финансова защита на потребителите, защото нямат история в едно от трите кредитни бюра. Други 19 милиона души нямат достатъчно данни във файла, за да се считат за оценявани от системата за кредитиране. Милиони други имат значителни грешки на някакъв етап от коригирането на своите кредитни досиета. Тези над 45 милиона американци са изправени пред реални последствия: по-високи проценти на отказ, по-високи разходи по заеми, по-лоши финансови продукти - въпреки че много от тях всъщност могат да бъдат високо кредитоспособни.
  • Кредитният рейтинг, един от големите икономически катализатори на 20-ти век, не е в крак с днешните потребители. Разпространението на налични източници на данни за по-точно и справедливо оценяване на хората не може да се използва лесно или лесно от наследените техники за оценяване.
  • Кредиторите започват да преминават към поемане на AI и машинно обучение, което обработва повече данни чрез сложни алгоритми и може да обработва объркани или погрешни данни. Кредитните модели за машинно обучение правят заключения от милиони взаимодействия и използват 10 до 100 пъти повече променливи от традиционните техники. Банките и кредиторите, които са използвали машинно обучение, отчитат по-висок процент на одобрение или по-нисък процент на неизпълнение, понякога и двете, като намират добри кредитополучатели, пропуснати от традиционните техники (и отхвърлят лоши кредитополучатели, които може да са били одобрени преди).
  • Създателите на по-нови алгоритми за оценяване на машинно обучение трябва да гарантират, че техните модели не пренасят отклонението, което съществува в текущата система за кредитиране. Всъщност ZAML инструментът на ZestFinance може да „отклони“ моделите в кредитните и други регулирани индустрии.

По време на стажа придобивам значителни познания за това как банките и финансовите институции вземат решения относно кандидатите за кредит, как машинното обучение се възприема от тях, как да вградя обяснимост и справедливост в дизайна на модела и как да осигуря връзка между предсказуемата производителност на модела и стойността на ROI за бизнес клиентите.

Най-важното е, че наистина се насладих на ориентираната към мисия култура на ZestFinance за изграждане на свят, който дава на повече хора възможността, която идва с кредит. Имам само топли чувства към компанията и горещо ви препоръчвам да разгледате техния блог и отваряне за ново съдържание и възможности за работа.

Завършване

Стажът определено потвърди моята страст към изкуствения интелект/машинното обучение и съм благодарен, че работата ми остави някаква сила за бъдещи работи. Фазата на бърз анализ и итеративно експериментиране, комуникационните умения, необходими за разговор с различни заинтересовани страни, огромното потенциално приложение за решаване на проблеми в голямо разнообразие от бизнес области допринесоха за моя интерес в тази област.

Не мога да бъда по-благодарен за възможността да прекарам лятото, използвайки журналистика с данни, за да създам стойност за невероятен продукт в нововъзникваща индустрия. Постигнах много, направих много грешки и най-важното научих повече, отколкото можех да очаквам, благодарение на страхотен екип и разнообразна група от ментори. Надявам се, че успях да ви предам поне няколко от тези уроци. Благодаря ви, че прочетохте.

Ако ви е харесало това произведение, можете да намерите повече от моето писане и проекти на https://jameskle.com/. Можете също така да ме следвате в Twitter, да проверите моя код в GitHub, изпратете ми имейл директно или намерете ме в LinkedIn. Регистрирайте се за моя бюлетин, за да получавате най-новите ми мисли относно науката за данните, машинното обучение и изкуствения интелект направо във входящата си поща!