Предиктивная и предписывающая аналитика для бизнеса

Машинное обучение

Машинное обучение - это метод вычислительного обучения, лежащий в основе большинства приложений искусственного интеллекта (ИИ). В машинном обучении системы или алгоритмы улучшаются за счет работы с данными, не полагаясь на явное программирование. Алгоритмы машинного обучения - это универсальные инструменты, способные выполнять прогнозы, одновременно обучаясь на основе более чем триллионов наблюдений.

Типы аналитики данных

  • Описательная аналитика. Это основная форма аналитики, которая собирает большие данные и дает полезную информацию о прошлом.
  • Предиктивная аналитика. Он использует различные методы статистического моделирования и машинного обучения для анализа прошлых данных и прогнозирования будущих результатов.
  • Предписывающая аналитика: новая форма аналитики, в которой используется сочетание бизнес-правил, машинного обучения и вычислительного моделирования, чтобы рекомендовать лучший способ действий для любого заранее заданного результата.

Практический подход

Прогнозирование цен на алмазы

Обзор проекта

Ювелирная компания хочет сделать ставку на покупку большого набора бриллиантов, но не уверена, сколько она должна предложить. В этом проекте вы будете использовать результаты прогнозной модели, чтобы сделать рекомендацию о том, сколько ювелирной компании следует предлагать цену за бриллианты.

Подробная информация о проекте
Дистрибьютор бриллиантов недавно решил уйти с рынка и выставил на аукцион набор из 3000 бриллиантов. Увидев в этом прекрасную возможность расширить свои запасы, ювелирная компания проявила интерес к участию в торгах. Чтобы решить, какую ставку предложить, вы воспользуетесь большой базой данных цен на алмазы, чтобы построить модель для прогнозирования цены на алмаз на основе его атрибутов. Затем вы будете использовать результаты этой модели, чтобы сделать рекомендацию относительно того, сколько компании следует предлагать.

Мой подход

Что такое данные
Есть два набора данных. diamonds.csv содержит данные, используемые для построения регрессионной модели. new_diamonds_new.csv содержит данные об алмазах, которые компания хотела бы приобрести. Оба набора данных содержат данные о каратах, огранке и чистоте для каждого алмаза. Цены указаны только в наборе данных diamonds.csv. Мне пришлось спрогнозировать цены для набора данных new_diamonds.csv.

Визуализация данных

Глядя на соотношение между каратами и ценой на диаграмме разброса выше, модель в среднем хорошо спрогнозировала цены, но для некоторых алмазов она может быть очень неправильной. Хотя формула может быть неточной для отдельного алмаза, она должна хорошо предсказывать цену, которую мы должны платить сразу за несколько алмазов, поскольку в среднем она выглядит репрезентативной.

Между каратами и ценой для нового алмаза (прогнозируемого) существует линейная зависимость, как и для старого алмаза .

Все переменные-предикторы были протестированы, пока я не пришел к этим немногим характеристикам, которые были очень значимыми для регрессионной модели, т. Е. Имеющими P-значения <0,05.
Уравнение регрессии = -5 269 + 8 413 x Карат + 158,1 x Огранка + 454 x Чистота

Моя рекомендация

Какую цену вы рекомендуете выставить на торги ювелирной компании? Пожалуйста, объясните, как вы пришли к этому номеру

Что касается того, какую цену компания должна предложить за весь набор из 3000 бриллиантов, я рекомендую немного 8 213 465,93 долларов. Я пришел к этой цифре, используя уравнение регрессии, полученное из предыдущих продаж бриллиантов, и применил его. к новым алмазам, выставленным на торги. Поскольку компания обычно покупает алмазы у дистрибьюторов по цене 70% от этой цены, я умножаю прогнозируемую сумму 11 733 522,76 доллара на 0,70, чтобы получить окончательную прогнозируемую ставку в размере 8 213 465,93 доллара США.

использованная литература