Добро пожаловать в историю пяти простых учеников, преследующих одну большую цель: сократить количество пищевых отходов. Только в США общая еда составляет более 100 зданий Эмпайр-стейт-билдинг в год. Вы спросите: «Как пять учеников мечтают решить эту грандиозную задачу?» Что ж, это наша история использования данных во благо.

В Columbia Business School’s, Аналитика в действии мы сотрудничали с инновационным стартапом по доставке еды, чтобы свести к минимуму их отходы и сократить расходы. Курс объединяет команды из 4–6 студентов с реальными компаниями для решения проблем с помощью аналитики.

Наша разнообразная команда состояла из трех специалистов со степенью MBA и двух специалистов по обработке данных из Школы инженерии и прикладных наук. Наш опыт включает финансы, венчурный капитал, инжиниринг и подводное плавание. Мы работали в паре с Good Uncle, инновационным технологическим стартапом, который приносит лучшую еду в стране в университетские городки по всей стране.

Эта проблема

Всякое приготовление еды Good Uncle начинается на большой центральной кухне в Делавэре, почти за неделю до того, как покупатель разместит свой заказ. Эта бизнес-модель не оставляет компании времени приспособиться к спросу; Проще говоря, пищевые отходы очень чувствительны к точности прогнозов их спроса.

Другие предприятия пищевой промышленности следят за своими запасами и могут заказывать пополнение запасов до того, как ресторан закончится. Добрый дядя должен аккуратно заказать помидоры и моцареллу за несколько дней, прежде чем мысль о заказе пиццы приходит в голову покупателю.

Наше путешествие

Впервые мы встретились с Мэттом, генеральным директором и основателем Good Uncle в его штаб-квартире в центре Манхэттена. Обсудив все тонкости бизнеса, мы расстались с данными Spring 2018 для Сиракузского университета и надели перчатки для чистки.

Мы добавили все возможные внешние функции, включая погоду из DarkSky, события из StubHub и, конечно же, академический календарь с веб-сайта школы. Вооружившись целым арсеналом описательных функций, мы сразу же приступили к подгонке моделей. Множество моделей.

Наш процесс начался с амбициозной цели моделирования спроса на самом детальном уровне. Когда модель за моделью с треском проваливались, мы сдерживали свое разочарование и обращались за помощью к нашим бесценным профессорам и блестящему TA. Мы поняли, что вступили в битву с грозным противником: прогнозированием временных рядов с низким спросом.

Мы углубились в данные и искали разумные способы сгруппировать точки продаж вместе. Нам нужно было устранить эту разреженность путем агрегирования продаж на пространственно-временной основе. Поскольку фургоны с едой проезжают через точки выдачи в течение дня, нам нужно было рассмотреть несколько методов кластеризации.

Имея большое количество двузначных комбинаций методов моделирования и кластеров данных, мы обратились к сравнительному анализу, чтобы отточить нашу модель выбора и конечный продукт для Good Uncle.

Хотя нашей целью всегда было прогнозирование спроса, мы поняли, что нашей реальной целью является чистая прибыль. Мы количественно оценили денежную ценность заказа слишком большого или слишком малого количества определенного элемента в меню и использовали это, чтобы задать целевое уравнение. Чтобы сравнить модели, мы оптимизировали их для получения прибыли и обнаружили, что деревья с усилением XGB и регрессия Пуассона являются очевидными лидерами в этой группе. С некоторым восстановлением достоинства и гораздо большей уверенностью мы перешли на данные в реальном времени.

Примерно в середине семестра осень 2018 мы получили от компании дамп данных и начали оптимизировать модели в реальном времени. Результаты говорят сами за себя в следующем разделе.

Решение: ** ВНИМАНИЕ! Впереди технический жаргон **

Мы боролись между более чем полдюжиной методов моделирования, постоянно меняя их по мере того, как в игру вступали новые данные и идеи. Мы работали с линейной регрессией, авторегрессивным моделированием, регрессией Пуассона, случайным лесом, деревьями решений с экстремальным градиентом и т. Д. В итоге идеальной моделью оказалась не одна, а комбинация двух разных моделей.

Мы поняли, что это проблема, связанная не только с прогнозированием спроса, но и с прогнозированием запасов, поэтому мы объединили вышеуказанные модели машинного обучения со знаменитой моделью Newsvendor, используемой для управления запасами.

Сначала мы загрузили входные данные в модели обобщенной линейной модели Пуассона (GLM) и Gradient Boosted Tree. Выходные данные обеих моделей были использованы в качестве входных данных для модели Newsvendor, преобразовав приведенное выше уравнение в:

Окончательный результат дал прогноз спроса, и, обучив модель и проверив ее с различными уровнями обслуживания (от 0,1 до 0,99), мы смогли найти оптимальный.

Результат:

График ниже дает представление о том, как наша модель превосходит текущий метод (назовем это моделью GU). Лучший способ сравнить наш новый метод со старым - найти несовершеннолетних (предложение меньше спроса) и избыточное количество (предложение больше спроса), что показано ниже.

Из этого графика мы можем увидеть два основных вывода.

  • Мы можем гибко настраивать уровни несовершеннолетних и старше, в то время как такая гибкость невозможна для модели GU (которая принимает постоянное значение).
  • Мы можем добиться меньшего перерасхода , а также несовершеннолетнего по сравнению с моделью Good Uncle для уровней обслуживания от 0,67 до 0,91.

Мы поняли, что, установив оптимальный уровень обслуживания на уровне 0,68, наша модель смогла сэкономить ~ 70 долларов США по сравнению с моделью GU для одного продукта питания на маршрут в течение 10 дней. Но мы хотели пойти дальше. Итак, мы запустили модель для 10 самых покупаемых продуктов питания как по маршрутам, так и по кластерам, и получили эту удобную таблицу, показанную ниже:

Наша модель смогла сэкономить на всех товарах, кроме одного (ей просто не нравится блюдо из тушеной свинины для барбекю!). Наконец, чтобы ясно показать мощь модели, мы экстраполировали стоимость в долларах на весь семестр, запустив ее на всех маршрутах и ​​кластерах для 10 лучших элементов.

Мы наблюдали потенциальную экономию в размере 29 256 долларов США на 10 самых покупаемых продуктах питания по всем пунктам выдачи (с учетом маршрута) всего за 1 семестр всего в 1 университетском городке.

В заключение

Это была величайшая академическая возможность за время нашей работы, выходящая далеко за рамки классной комнаты. Мы прекрасно провели время, работая с новыми друзьями, и мы многому научились у профессоров и, конечно же, у замечательных людей из Good Uncle. Мы не только выпили из шланга аналитики данных, но и разделили путь инновационного, быстро развивающегося стартапа и учились у лучших предпринимателей Нью-Йорка.

Команда

Команда состояла из 5 человек: Боуэн Бао, Дон Холдер, Джек Спицин, Николай Мухин и ваш покорный слуга. Эта статья была написана коллективными усилиями.

******************************************************************

Если вы нашли это полезным, нажмите Следуй за мной, чтобы увидеть больше статей. Знаете ли вы, что можно 👏 больше одного раза? Попробуйте! 💓 Мне нравится писать о социальных проблемах, продуктах, секторе технологий и моем опыте работы в аспирантуре в США. Вот мой личный блог. Если вы любознательная душа и хотите учиться каждый день, вот Slack Group, которую я создал для вас.

Лучший способ связаться со мной - через Instagram и Facebook. Я делюсь там интересным контентом. Чтобы узнать больше о моей профессиональной жизни, посетите мой LinkedIn. Приятного чтения!