Время – деньги: перестаньте планировать и начните делать

Как мы за пару месяцев создали решение для машинного обучения, о котором мечтают все.

Получить решение для работы с данными в режиме реального времени с несколькими миллионами событий каждый день — непростая задача. Даже если вы не усложняете машинное обучение и надежные конвейеры данных. Получить все это вживую менее чем за 4 месяца для меня огромное достижение. Итак, что такое святой Грааль, дорога, которую все хотят построить

Все началось с дискуссии между веб-разработкой, devops и данными, вызванной отличным постом «Журнал: что должен знать каждый инженер-программист об объединяющей абстракции данных в реальном времени». Мы обсудили, как будет разработана реализация Kafka, и красоту объединяющей абстракции данных. Мы попытались развить эту идею и привлечь больше людей из организации. В то время наш способ работы не был готов к изменениям. Сегодня мы объединяемся вокруг племен и компетенций в основе. Теперь, после успеха Data Guild, я понял, что если вы во что-то верите, перестаньте говорить, сделайте так, чтобы это произошло, а затем расскажите о своих знаниях.

"Теперь, после успеха решений для машинного обучения, я понял, что если вы во что-то верите, перестаньте говорить, сделайте так, чтобы это произошло, а затем расскажите о своих знаниях"

Если мы затем перейдем к внедрению модели машинного обучения на сайт менее чем за 6 месяцев, это само по себе достижение. Каждый, кто был частью этого путешествия, знает, сколько усилий требуется, чтобы внедрить решение для машинного обучения в производство. Я не буду вдаваться во все аспекты этого, так как это сам по себе пост в блоге (дайте нам знать, если есть интерес, и мы рассмотрим его). Итак, как мы добились этого, когда каждый компонент требует большого количества технических знаний, чтобы не говорить о том, чтобы получить поддержку от бизнеса? Давайте поговорим о том, что мы называем «Гильдией данных».

Data Guild основана на успешной концепции TUI, начиная с Devops Guild. Гильдия Devops началась с сотрудничества между веб-разработчиками и операторами и вскоре перешла к DevOps с встречами и решениями, которые до сих пор являются основой, на которой мы строим. Наш отдел реализовал более 1 тыс. развертываний с помощью решений, общее количество развертываний приближается к 35 тысячам в год, из них 8 тыс. — в производство.

В начале этого года мы запустили Data Guild, проводя одно практическое собрание каждую неделю. Сосредоточение внимания на технологиях, сотрудничестве и скорости.

Довольно скоро мы вернулись к обсуждению стриминга и за 2 месяца запустили инфраструктуру в продакшн, после чего у нас был внутренний хакатон по данным, на котором один из наших специалистов по данным вместе с веб-разработчиком собрали первую версию персонализированного поиска на основе о потоковой передаче и модели неявной совместной фильтрации. Оттуда мы подошли к тому моменту, когда у нас был первый вариант использования и что-то, что долгое время было в списке для изучения как разработчиками, так и бизнесом.

«Гильдия данных заставила нас работать вместе с данными и технологиями, кодировать и сотрудничать, а не планировать. Мы выполняем, а затем учимся, вместо того чтобы планировать выполнение».

Оттуда мы удостоверились, что у нас есть одобрения от бизнеса, владельцев продуктов и все отслеживание для развертывания A/B-тестирования. Теперь в более поздних итерациях мы также сосредоточились на ценности четкого объяснения технических частей в нетехнических терминах заинтересованным сторонам из бизнеса. Тест прошел успешно, и мы увидели из A/B, что новая версия поиска, основанная на данных в реальном времени и персонализации с помощью машинного обучения, более актуальна для пользователей.

Теперь пришло время мне уйти в отпуск по уходу за ребенком, и быстрые результаты от Data Guild — одна из многих вещей, частью которых я действительно оказался. Обеспечить совместную работу, инновации и время выхода на рынок легко, когда у вас есть хорошие люди и нужные навыки.

Это не конец, а первая итерация, из которой мы многому научились, и я с нетерпением жду возможности услышать о других продвигаемых итерациях, таких как Contextual Bandits, или последних современных моделях, появившихся за последние недели # Конференция RecSys19.

Вы считаете это интересным, мы всегда ищем хороших людей, которые присоединятся к нам в нашем путешествии по данным!