Вступление

Недавно я прошел курс обучения основам данных, организованный Школой наук о данных Бертельсманна (в партнерстве с Udacity). Для личного проекта я решил проанализировать базу данных компании по прокату DVD, которую мы назовем Rent A Film. Давайте рассмотрим пример с подробным описанием моего процесса и результатов.

Набор данных

Я начал с просмотра базы данных. База данных DvdRental содержит 15 таблиц. Ниже представлены различные таблицы и их краткое описание.

  • актер - содержит данные актеров, включая имя и фамилию.
  • фильм - содержит данные о фильмах, такие как название, год выпуска, продолжительность, рейтинг и т. д.
  • film_actor - содержит отношения между фильмами и актерами.
  • category - содержит данные о категориях фильмов.
  • film_category - содержит отношения между фильмами и категориями.
  • store - содержит данные о магазине, включая персонал и адрес менеджера.
  • инвентарь - хранит данные инвентаризации.
  • rent - хранит данные об аренде.
  • payment - хранит платежи клиента.
  • Staff - хранит данные о персонале.
  • customer - хранит данные клиента.
  • адрес - хранит адресные данные для сотрудников и клиентов
  • city ​​- хранит названия городов.
  • страна - хранит названия стран.

Примечание: я проанализировал эту базу данных с помощью PostgreSQL. Вы можете получить подробную информацию об установке PostgreSQL здесь и скачать базу данных по аренде DVD здесь.

Цель и цели

В этом проекте я постараюсь ответить на следующие вопросы:

  1. Какие жанры являются самыми популярными и наименее популярными (востребованными) и каковы их общие продажи?
  2. Можем ли мы узнать, сколько разных пользователей арендовали каждый жанр?
  3. Какая средняя арендная ставка для каждого жанра? (от высшего к низшему)
  4. Сколько взятых напрокат фильмов было возвращено с опозданием, досрочно и вовремя?
  5. В каких странах работает Rent A Film и какова клиентская база в каждой стране? Каковы общие продажи в каждой стране? (от наибольшего к наименьшему)
  6. Кто входит в пятерку крупнейших клиентов по общему объему продаж, и можем ли мы получить их подробную информацию на тот случай, если Rent A Film захочет их вознаградить?

Прежде чем приступить к анализу, я сначала попытался понять ERM (модель отношений сущностей) этой базы данных, также известной как схема. Вот схема ниже:

Вы можете просмотреть мой код в моем профиле GitHub здесь.

Анализ

Чтобы ответить на первый вопрос « Какие жанры наиболее и наименее арендованы (востребованы) и каковы их общие продажи?», я сначала идентифицировал с таблицами I потребуется присоединиться, а именно:

Категория ›Категория_фильма› Фильм ›инвентарь› аренда ›заказчик› оплата

Ниже приведен запрос, который я использовал для ответа на вопрос:

Статистика

Из приведенной выше таблицы мы можем сделать 3 основных вывода:

  • Прокат фильма предлагает 16 жанров.
  • Категория «Спорт», кажется, является наиболее арендуемым жанром с точки зрения количества сдач в аренду, а также имеет самый высокий общий объем продаж в денежном выражении.
  • Музыкальная категория является наименее арендуемым жанром с точки зрения количества сдач в аренду и имеет самый низкий общий объем продаж в денежном выражении.

Вопрос 2. Можем ли мы узнать, сколько разных пользователей арендовали каждый жанр? Короче говоря, да, мы можем.

К таблицам, к которым нужно присоединиться, относятся следующие:

Категория ›Категория_фильма› Фильм ›Инвентарь› Прокат ›Заказчик

Ниже мой запрос на этот вопрос:

Статистика

Я хотел знать, сколько разных клиентов арендуют каждый из жанров. Один интересный момент из запроса заключается в том, что, хотя музыкальный жанр имеет наименьшее количество арендованных записей, у него не наименьшее количество отдельных клиентов, которые арендовали этот жанр. Этот рекорд принадлежит жанру путешествий.

Сделав шаг назад и соединив выводы, полученные из вопросов 1 и 2, мы можем сказать, что жанр путешествия повторно арендовался больше раз, чем жанр музыки.

И, конечно же, у спортивного жанра больше всего клиентов, которые арендовали этот жанр.

Вопрос 3. Какова средняя арендная ставка для каждого жанра? (от самого высокого до самого низкого)

Таблицы, к которым нужно присоединиться, следующие:

Категория ›Категория_фильмов› Фильм

Ниже мой запрос на этот вопрос:

Статистика

Я пошел дальше, чтобы посмотреть, влияет ли количество арендованных категорий на среднюю арендную ставку каждого жанра. Из приведенной выше таблицы мы можем легко сделать вывод, что средняя арендная ставка не может быть фактором.

Хотя у этого жанра самая низкая средняя арендная ставка, он входит в пятерку самых популярных жанров. Удивительно, но жанр музыки не самый дорогой - экшн, хотя жанр экшн - один из самых популярных жанров.

Можно с уверенностью сказать, что большинство покупателей - любители фильмов о спорте и меньше всего интересуются музыкальными фильмами.

Вопрос 4. Сколько взятых напрокат фильмов было возвращено поздно, раньше и вовремя?

Таблицы, к которым нужно присоединиться, следующие:

пленка ›инвентарь› аренда

Статистика

Статус возврата фильмов, возможно, является одним из наиболее важных аспектов, которые необходимо контролировать в бизнесе по аренде DVD. Согласно приведенному выше запросу 48% фильмов возвращаются раньше установленного срока, 41% фильмов возвращаются с опозданием, а 11% - вовремя.

Это может происходить по ряду факторов, например, расстояние доставки этих фильмов из магазинов, которые могут быть полностью вне контроля покупателей, и так далее. Нам нужно глубже изучить данные, чтобы понять суть проблемы.

Однако стоит отметить, что значительный процент фильмов возвращается с опозданием. Введение пени за опоздание могло бы стать дополнительным источником дохода и, в свою очередь, препятствовать позднему возврату.

Но такое решение может иметь смысл только в том случае, если мы знаем, почему возникает проблема.

Вопрос 5. В каких странах работает компания Rent A Film и какова клиентская база в каждой стране? Каков общий объем продаж в каждой стране? (От наибольшего к наименьшему)

Таблицы, к которым нужно присоединиться, следующие:

Страна ›Город› Адрес ›заказчик› платеж

См. Запрос ниже:

Статистика

Rent A Film представлена ​​в 108 странах, при этом в Индии самая большая клиентская база (60 клиентов) и самый большой общий объем продаж в денежном выражении. В Афганистане самый низкий общий объем продаж в денежном выражении, хотя это не единственная страна с самой маленькой клиентской базой - 1 покупатель.

Вопрос 6. Кто входит в пятерку крупнейших клиентов по общему объему продаж и можем ли мы получить их подробную информацию на тот случай, если компания Rent A Film хочет их вознаградить?

К таблицам, к которым нужно присоединиться, относятся следующие:

Страна ›Город› Адрес ›заказчик› платеж

См. Запрос ниже:

Статистика

Предполагая, что мы хотим вознаградить или отправить физические подарки основным клиентам, в приведенной выше таблице показаны их полные имена, адреса, адрес электронной почты и т. Д.

Эту информацию можно отправить в отдел маркетинга компании, чтобы использовать их знания в предметной области, чтобы решить, как их вознаградить.

Заключение

В этом проекте мы проанализировали данные компании по прокату DVD, которую мы решили назвать «Прокат фильма», чтобы получить представление о клиентах и ​​их предпочтениях. Мы сделали 3 основных вывода:

  1. У компании есть клиенты, любящие спорт, и им было бы целесообразно хранить больше фильмов, связанных со спортом, чтобы увеличить общий объем продаж по сравнению с фильмами, связанными с музыкой. Было бы неплохо увеличить среднюю ставку проката фильмов о спортивных жанрах, поскольку это не является важным фактором при аренде для клиентов. Это, в свою очередь, увеличивает общий доход. Однако, чтобы сделать вывод об этом, необходимо провести дальнейший анализ.
  2. Существует возможность получить дополнительный источник дохода за счет платы за просроченный возврат фильма.
  3. Rent A Film представлена ​​в 108 странах, при этом Индия является крупнейшим рынком по количеству людей и доходов. Кроме того, 20% стран, в которых они представлены, составляют 80% от общей клиентской базы.

P.S Как и я, любой может научиться анализу данных, и если вы хотите получать уведомления о моем следующем проекте или обновлениях моего обучения, не стесняйтесь подписаться на мою информационную рассылку