Времето е пари: спрете да планирате и започнете да правите

Как създадохме решението за машинно обучение, което всеки иска за няколко месеца.

Получаването на решение за данни в реално време на живо с няколко милиона събития всеки ден е трудно. Дори ако не добавяте към сложността на машинното обучение и стабилните канали за данни. Оживяването на всичко това под 4 месеца е огромно постижение за мен. И така, какво е светият граал, пътят, който всеки иска да построи

Всичко започна с дискусия между webdev, devops и данни, предизвикана от страхотната публикация „Дневникът: Какво трябва да знае всеки софтуерен инженер за обединяващата абстракция на данните в реално време“. Обсъдихме как ще бъде проектирана имплементацията на Kafka и красотата на обединяващата абстракция на данните. Опитахме се да развием идеята и да привлечем повече хора от организацията. Тогава нашият начин на работа не беше готов за промяната. Днес ние се подреждаме около племена и компетенции в основата. Това, което осъзнавам сега след успеха с Data Guild е, че ако вярвате в нещо, спрете да говорите, направете го да се случи и след това говорете за наученото.

„Това, което осъзнавам сега след успеха с решенията за машинно обучение, е, че ако вярвате в нещо, спрете да говорите, направете го да се случи и след това говорете за вашите знания“

Ако след това преминем към въвеждане на модел за машинно обучение на живо на сайта под 6 месеца, само по себе си е постижение. Всеки, който е бил част от подобно пътуване, знае колко усилия са необходими, за да се достави решение за машинно обучение в производството. Няма да навлизам във всички аспекти на това, тъй като това само по себе си е публикация в блог (уведомете ни, ако има интерес и ние ще го покрием). И така, как постигнахме това, когато всеки компонент се нуждае от голямо количество техническа експертиза, за да не говорим за получаване на печалба от бизнеса? Нека поговорим за това, което наричаме „Гилдията на данните“.

Data Guild е изградена върху успешна концепция на TUI, започваща с Devops Guild. Devops Guild беше създадена от сътрудничество между уеб разработчици и операции и скоро премина в devops със срещи и решения, които все още са основата, върху която надграждаме. Нашият отдел е прокарал повече от 1k внедрявания чрез решенията, общият брой на внедряванията е близо 35 хиляди годишно и 8k от тези в производство.

В началото на тази година стартирахме Data Guild с по една практическа среща всяка седмица. Фокусиране върху технологиите, сътрудничеството и скоростта.

Съвсем скоро се върнахме към дискусията за стрийминг и пуснахме инфраструктурата в производство в рамките на 2 месеца, след което имахме вътрешен хакатон за данни, като един от нашите специалисти по данни заедно с уеб разработчик пуснаха първата версия на персонализирано търсене, базирано на върху стрийминг и косвен модел на съвместно филтриране. Оттам стигнахме до момент, в който имахме първи случай на употреба и нещо, което беше високо в списъка за изследване както за разработчиците, така и за бизнеса от дълго време.

„Гилдията на данните ни накара да работим заедно с данни и технологии, кодиране и сътрудничество, вместо да планираме. Ние изпълняваме и след това се учим, вместо да планираме изпълнението.“

Оттам се гарантираше, че разполагаме с одобрения от бизнеса, собствениците на продукти и всички проследявания, за да разгърнем A/B теста. Сега в по-късните итерации също се фокусирахме върху стойността на ясното обяснение на техническите части в нетехнически термини на заинтересованите страни от бизнеса. Тестът беше успешен и видяхме от A/B, че новата версия на търсене, базирана на данни в реално време и персонализиране с машинно обучение, е по-подходяща за потребителите.

Сега е време да изляза в родителски отпуск и бързите резултати от Data Guild са едно от многото неща, за които наистина съм доказал, че съм част. Даването на възможност за сътрудничество, иновации и време за пазар е лесно, когато участват добри хора и правилните умения.

Това не е краят, по-скоро първа итерация, от която научихме много и очаквам с нетърпение да се върна, за да чуя за другите итерации, които се прокарват като Contextual Bandits или най-новите съвременни модели, идващи от последните седмици # Конференция RecSys19.

Смятате ли, че това е интересно, ние винаги търсим добри хора, които да се присъединят към нас в нашето пътуване с данни!