Добре дошли в историята на петима прости студенти с една голяма цел: намаляване на хранителните отпадъци. Само в САЩ разпръснатата храна тежи над 100 Емпайър Стейт Билдинг годишно. Как точно петима студенти мечтаят да се справят с тази монументална задача, питате? Е, това е нашата история за използването на данни за добро.

В Columbia Business School’s, Analytics in Action, си партнирахме с иновативна стартираща компания за доставка на храна, за да минимизираме техните отпадъци и да намалим разходите. Курсът обединява екипи от 4–6 студенти с реални компании за решаване на проблеми чрез анализи.

Нашият разнообразен екип се състоеше от трима MBA и двама специалисти по данни от Училището по инженерство и приложни науки. Нашият опит включва финанси, рисков капитал, инженерство и подводничарство. Свързахме се с Good Uncle, иновативен, базиран на технологии стартъп, който предлага най-добрата храна в страната в университетските кампуси в цялата страна.

Проблемът

Цялото приготвяне на храната на Good Uncle започва в голяма централна кухня в Делауеър, почти седмица преди клиентът да направи поръчката си. Този бизнес модел не оставя време на компанията да се приспособи към търсенето; просто казано, хранителните отпадъци са изключително чувствителни към точността на прогнозата за тяхното търсене.

Други предприятия за храни следят инвентара си и могат да поръчат попълване, което пристига преди ресторантът да е изчерпан. Добрият чичо трябва точно да поръча домати и моцарела няколко дни преди мисълта да поръча пица рула да мине през ума на патрона.

Нашето пътуване

За първи път се срещнахме с Мат, главният изпълнителен директор и основател на Good Uncle, в неговия централен офис в центъра на Манхатън. След като обсъдихме тънкостите на бизнеса, ние се разделихме с данните за пролетта на 2018 г.за университета в Сиракюз и сложихме ръкавиците за почистване.

Добавихме всяка външна функция, която можехме да си представим, включително времето от DarkSky, събития от StubHub и, разбира се, академичния календар от уебсайта на училището. Въоръжени с арсенал от описателни функции, веднага започнахме да монтираме модели. Много модели.

Нашият процес започна с амбициозната цел да моделираме търсенето на най-подробно ниво. Когато модел след модел се проваляха мизерно, ние преодоляхме разочарованието си и потърсихме помощ от нашите безценни професори и брилянтен TA. Осъзнахме, че сме водили битка със страхотен враг: прогнозиране на времеви редове с рядко търсене.

Гмурнахме се в данните и потърсихме разумни начини да групираме точките за продажба заедно. Трябваше да премахнем тази рядкост чрез обобщаване на продажбите на пространствено-времева основа. Тъй като камионите с храна се движат през пунктовете за пускане през целия ден, трябваше да разгледаме няколко метода за групиране.

С високи двуцифрени комбинации от техники за моделиране и клъстери от данни, ние се обърнахме към бенчмаркинг, за да усъвършенстваме избрания от нас модел и евентуален продукт за Good Uncle.

Въпреки че целта ни през цялото време беше прогнозиране на търсенето, осъзнахме, че целта ни в реалния живот е долната линия. Определихме количествено паричната стойност на поръчката на твърде много или твърде малко от даден артикул в менюто и го използвахме, за да зададем целево уравнение. За да сравним моделите, оптимизирахме за печалба и установихме, че XGBoosted Trees и Poisson Regression са очевидните лидери в групата. С малко възстановено достойнство и много повече увереност направихме преход към данни в реално време.

Около средата на семестъра на есента на 2018 г. изтеглихме дъмп на данни от компанията и започнахме да оптимизираме моделите в реално време. Резултатите говорят сами за себе си в раздела по-долу.

Решението: **ВНИМАНИЕ: Технически жаргон напред**

Борихме се между повече от половин дузина техники за моделиране, като непрекъснато се променяхме с появата на нови данни и прозрения. Работихме с линейна регресия, авторегресивно моделиране, регресия на Поасон, произволна гора, дървета с решения с екстремен градиент и т.н. В крайна сметка перфектният модел не беше един, а комбинация от два различни модела.

Разбрахме, че това не е само проблем, включващ прогнозиране на търсенето, но и прогнозиране на инвентара, така че комбинирахме горните модели за машинно обучение с известния Модел на доставчик на новини, използван за управление на инвентара.

Първо, подадохме входните данни в генерализирания линеен модел на Поасон (GLM) и моделите с градиентно усилено дърво. Резултатът от двата модела беше подаден като вход към модела Newsvendor, трансформирайки горното уравнение в:

Окончателният резултат даде прогнозата за търсенето и чрез обучение на модела и валидирането му с различни нива на обслужване (вариращи от 0,1 до 0,99), успяхме да намерим оптималното.

Резултат:

Графиката по-долу дава поглед върху това как нашият модел превъзхожда текущия метод (нека го наречем модел на GU). Най-добрият начин да сравним нашия нов метод със стария беше да намерим непълнолетните (предлагането е по-малко от търсенето) и свръхнарастването (предлагането е по-голямо от търсенето), което е начертано по-долу.

От тази графика можем да видим два основни извода.

  • Можем да бъдем гъвкави при определянето на нашите нива на непълнолетни и наднормени, докато тази гъвкавост не е възможна за модела на GU (който приема постоянна стойност).
  • Можем да постигнем по-малко наднормено кактонепълноценно в сравнение с модела на Good Uncle за нива на обслужване между 0,67 до 0,91.

Разбрахме, че като зададем оптималното ниво на обслужване на 0,68, нашият модел успя да спести ~$70 в сравнение с модела на GU за един хранителен артикул на маршрут за 10 дни. Но ние искахме да отидем по-далеч. Така че проведохме модела за 10-те най-купувани хранителни артикула по двата маршрута и клъстери и получихме тази удобна таблица, показана по-долу:

Нашият модел успя да спести пари за всички артикули с изключение на един (той просто не харесва BBQ Pulled Pork Plate!). И накрая, за да покажем ясно силата на модела, екстраполирахме стойността в долари за цял семестър, като го пуснахме по всички маршрути и клъстери за първите 10 елемента.

Наблюдавахме потенциални спестявания от $29 256 за 10-те най-купувани хранителни артикула във всички точки на пускане (по отношение на маршрута) само за 1 семестър, само в 1 кампус.

В заключителната

Това беше най-голямата академична възможност за нашия мандат, достигаща далеч отвъд стените на класната стая. Прекарахме толкова страхотно време, работейки с нови приятели и научихме толкова много от професорите и, разбира се, от прекрасните хора на Good Uncle. Не само пихме от огъня на анализа на данни, но споделихме пътуването на иновативен, бързо развиващ се стартъп и се учихме от най-добрите предприемачи в Ню Йорк.

Екипът

Екипът се състоеше от 5 члена: Bowen Bao, Don Holder, Jack Spitsin, Nicolai Mouhin и искрено твой. Тази статия е написана като екипно усилие.

******************************************************************

Ако сте намерили това за полезно, направете Следвайте ме за още статии. Знаете ли, че можете👏 повече от веднъж? Опитай го! 💓Обичам да пиша за социални проблеми, продукти, технологичния сектор и моя опит в следдипломно училище в САЩ. Ето моят личен блог. Ако сте любопитна душа, която иска да учи всеки ден, ето една Slack Group, която създадох, за да се присъедините.

Най-добрият начин да се свържете с мен е чрезInstagram и Facebook. Споделям интересно съдържание там. За да научите повече за професионалния ми живот, вижте моя LinkedIn. Приятно четене!