Можем ли мы предсказать изменение цен в онлайн-супермаркете с помощью машинного обучения и…

Часть 1. Эконометрический подход

В этой серии статей проходит моя магистерская диссертация, которая была не только моим первым проектом сквозного машинного обучения, но и мостом между моей эконометрикой и изучением машинного обучения. Так что есть много возможностей для улучшения, но я хотел записать это в виде архива, прежде чем я полностью забуду то, что я написал (хотя прошло уже более полутора лет). Если хотите посмотреть, полный текст доступен на ResearchGate. Эта история объясняет, как эконометрический подход может предсказать поведение фирм по корректировке цен, за которым следует Часть 2 - подход ML.

Содержание

Краткое введение в механизм корректировки цен
Описание данных
Эконометрический подход (+ немного машинного обучения)
Результаты
Дальнейшие действия

Краткое введение в механизм корректировки цен

Этот проект пытается спрогнозировать время корректировки цен. Есть 3 основные теории. ценообразование в зависимости от времени, ценообразование в зависимости от штата и смесь этих двух теорий. Модель ценообразования, зависящая от времени, утверждает, что буквально основным фактором изменения цены является время, а модель ценообразования, зависящей от государства, объясняет, что изменение цены происходит, когда текущая цена отличается от оптимальной цены, а ожидаемая прибыль является положительной, когда фирма корректирует цену, включая Стоимость меню (стоимость корректировки).

Когда я узнал об этих теориях, я подумал, что это типичная проблема машинного обучения, поскольку они кажутся предсказуемыми на основе изучения исторической модели корректировки цен, особенно это онлайн-супермаркет, где затраты на корректировку намного ниже, чем в «оффлайн». супермаркет. Так мне пришла в голову идея диссертации.

Описание данных

В этой диссертации использован набор данных из Cavallo (2018) [1]. В этот набор данных включены цены на товары интернет-супермаркетов в Америке и некоторых странах Южной Америки. Данные были собраны с октября 2007 г. по август 2010 г., всего около 40 миллионов наблюдений. Вот данные, некоторые визуализации и функции. Для очистки данных, разработки функций и эконометрических исследований я использовал R и писал на Python для ML.

Во-первых, давайте посмотрим на структуру данных. В наборе данных 15 столбцов, но есть несколько повторяющихся столбцов. В своей диссертации я использовал идентификатор, дату, полную цену и категорию из исходного набора данных.

Для проведения (контролируемого) исследования машинного обучения / эконометрики (регрессии) нам необходимо установить целевую переменную. В моем случае, поскольку я хотел бы знать, можем ли мы предсказать, «когда цена товара будет скорректирована», я создал двоичную переменную, которая указывает, что цена была скорректирована или осталась такой же, как в предыдущий день, путем отслеживания.

# making price adjustment variable
library(dplyr)
df <- df %>% mutate(target = ifelse(id == lag(id) & fullprice != lag(fullprice),1,0)

Затем были созданы некоторые из этих основных функций, таких как день недели, месяц в году, дни с момента последней корректировки цен и т. Д., В основном зависящие от времени функции. Ниже приводится целевое распределение переменных в некоторых из этих функций.

Это некоторые из визуализаций вероятности корректировки цен по категориальным характеристикам. Красные линии обозначают среднее значение признака на графиках. Из этих визуализаций можно выделить некоторые закономерности, например, цена предмета с большей вероятностью будет скорректирована в понедельник, пятницу и субботу через неделю, что соответствует нашей интуиции (понедельник - начало недели, а пятница и суббота - начало выходных).

В этом наборе данных присутствует классовый дисбаланс. Цены корректировались только в 3,8% случаев. К этому нужно относиться надлежащим образом, поскольку линейные модели предполагают, что целевая переменная равномерно распределена, иначе модель не сможет хорошо предсказывать.

Эконометрический подход (+ немного машинного обучения)

Основное внимание в эконометрическом анализе уделяется поиску причинно-следственной связи между зависимыми переменными и независимой переменной. Часто статистические выводы являются основным интересом в этой дисциплине. Кроме того, эконометрические исследования имеют дело с относительно небольшими наборами данных, и модель должна быть проще, тогда как анализ машинного обучения использует более крупные наборы данных, а модель часто бывает более сложной, чтобы улучшить ее предсказательную силу.

В этой диссертации логистическая регрессия используется для прогнозирования корректировки цен в качестве эталонной модели. Чтобы понять, какие особенности являются наиболее важными для объяснения поведения фирмы при корректировке цен, в этой диссертации для сравнения используются алгоритмы выбора характеристик (LASOO и Elastic net). Эластичная сеть представляет собой линейную комбинацию регрессионных моделей L1 и L2, которая преодолевает недостатки регрессии LASSO и Ridge. Это заставляет эластичную сеть учитывать корреляцию между предикторами. Также эластичная сеть имеет менее строгие ограничения, поэтому меньшее количество коэффициентов сокращается до нуля по сравнению с LASSO (об этих регрессионных моделях у Savan Nahar есть отличный пост).

Как я уже упоминал выше, в этом наборе данных наблюдается серьезный дисбаланс классов. Есть несколько способов справиться с этим, например методы передискретизации, которые я использовал в части ML. Эта диссертация по эконометрике использует штрафную логистическую регрессию Ферта, которая может включать несбалансированный набор данных. Модель представлена ниже.

где | I (β) | представляет собой информационную матрицу с оценкой β. Поскольку эта модель включает компонент усадки, коэффициенты обычно меньше по абсолютной величине по сравнению с коэффициентами в нормальной логистической регрессии. В этой диссертации для расчетов использовался пакет « logistf ». В этой диссертации также проверяется информативность функций с помощью теста Вальда. Что касается ограничения памяти, эконометрические исследования проводились с использованием еженедельных данных, которые были агрегированы с ежедневными данными.

Полученные результаты

Вот некоторые результаты контрольной логистической регрессии. В скобках ниже коэффициенты указывают стандартные ошибки. ∗∗∗ обозначает значимость при 0%, ∗∗ при 0,1% и ∗ при 5%,. в 10%.

Тест Вальда значим при 0%, что означает, что все функции в этой модели информативны. Переменная продолжительности (дни с момента последней корректировки) отрицательна. Это указывает на то, что изменение цены менее вероятно для каждого дополнительного дня, но влияние дополнительной недели незначительно. Коэффициенты переменной цены довольно близки к нулю, но отрицательны. Исходя из этого результата, можно проанализировать, что независимо от того, насколько дорогой продукт, цена сама по себе оказывает довольно небольшое влияние на корректировку цены. Этот результат противоречит здравому смыслу, поскольку обычно более дорогие товары имеют эластичный спрос, а это означает, что потребители более чувствительны к дорогим товарам. Фирмы должны учитывать спрос, чтобы максимизировать прибыль, что указывает на то, что фирме следует более внимательно относиться к ценообразованию на дорогой продукт. Однако этот результат показывает, что цена относительно меньше влияет на оценку изменений цен.

Теперь эта диссертация использует LASSO и эластичную сетку для выбора некоторых из наиболее важных функций. Что характерно для LASSO, он сузил свои коэффициенты до нуля больше, чем эластичная сетка. После выбранных функций я применил к ним логистическую регрессию Ферт со штрафными санкциями. Ниже приведены их результаты.

Результаты моделей очень похожи на результаты эталонной модели логистической регрессии. Тесты Вальда значимы при 0% для обеих моделей. Обе модели обнаруживают, что ценовая переменная имеет небольшую силу для прогнозирования корректировки цен. Также переменная дюрации показывает отрицательное, но небольшое влияние на корректировку цены в дополнительный день. Хотя LASSO и эластичная сеть обладают меньшей предсказательной силой, они демонстрируют, что эти две переменные являются наиболее важными переменными в моделях. Во-вторых, это исследование подтверждает, что есть несколько категорий продуктов, для которых установлена гибкая установка цен, а другие - «липкие».

Следующие шаги

В этой диссертации / блоге исследуется поведение фирм при корректировке цен с использованием эконометрического подхода (+ немного машинного обучения). Поведение фирмы в отношении корректировки цен часто связано с уровнем инфляции, поэтому следующая итерация может включать информацию об этих экономических индексах в качестве функции, чтобы модель могла также включать в себя функцию модели, зависящую от государства. Также, если названия категорий доступны, можно исследовать подробный категориальный анализ. Например, создание подвыборки на основе аналогичных категорий и возможность наблюдать, как изменение цен на другие продукты влияет на продукт. Также было бы весьма интересно изучить влияние продуктов-дополнений и заменителей. Кроме того, указывается, что штрафная логистическая регрессия Ферта все еще имеет систематическую ошибку, и Elgmati et al. (2015) [2]; Puhr et al. (2017) [3] предлагает скорректировать штрафную логистическую регрессию Ферта, чтобы получить несмещенную оценку. Может быть интересно использовать скорректированную логистическую регрессию Ферт со штрафами.

Заворачивать

В этом посте

кратко представил поведение фирм при корректировке цен
просмотрел данный набор данных, включая некоторые визуализации
продемонстрировал традиционный подход эконометрики и сочетание подходов машинного обучения и эконометрики (эластичная сеть и штрафная логистическая регрессия Ферт)
прошел через результаты и последствия

В следующем рассказе я расскажу, как я проводил исследование машинного обучения по этой теме, включая борьбу с несбалансированным набором данных и выбор подходящих показателей оценки.

Если вы нашли историю полезной, нажмите кнопку 👍 :) Также, если у вас есть какие-либо вопросы, отзывы или буквально что-то еще, не стесняйтесь оставлять комментарии ниже. Я был бы очень признателен. Также вы можете найти меня в LinkedIn.

использованная литература

[1] Кавалло (2018) «Очищенные данные и фиксированные цены». Обзор экономики и статистики, Vol. 100, с.105–119.

[2] Элгмати, Э., Фиакконе, Р. Л., Хендерсон, Р., и Мэтьюз, Дж. Н. (2015). Штрафная логистическая регрессия и динамическое прогнозирование для данных повторяющихся событий в дискретное время. Анализ данных за всю жизнь, 21 (4): 542–560.

[3] Пур Р., Хайнце Г., Нольд М., Луса Л. и Герольдингер А. (2017). Логистическая регрессия Ферта с редкими событиями: точные оценки и прогнозы эффектов? Статистика в медицине, 36 (14): 2302–2317.