Въведение

Наскоро завърших известно обучение по Data Foundation, улеснено от Bertelsmann’s School of Data Science (в партньорство с Udacity). За личен проект реших да анализирам базата данни за компания за DVD под наем, която ще наречем Филм под наем. Нека да разгледаме казус, описващ подробно моя процес и резултат.

Набор от данни

Започнах, като разгледах базата данни. Базата данниDvdRentalима 15 таблици. По-долу са различните таблици и краткото им описание.

  • актьор — съдържа данни за актьорите, включително име и фамилия.
  • филм — съдържа данни за филми като заглавие, година на издаване, дължина, рейтинг и др.
  • film_actor — съдържа връзките между филми и актьори.
  • категория — съдържа данни за категориите на филма.
  • film_category — съдържащ връзките между филми и категории.
  • магазин — съдържа данните за магазина, включително мениджърски персонал и адрес.
  • инвентаризация — съхранява данни за инвентара.
  • наем — съхранява данни за наем.
  • плащане — съхранява плащанията на клиента.
  • персонал — съхранява данни за персонала.
  • клиент — съхранява данните на клиента.
  • адрес — съхранява адресни данни за служители и клиенти
  • град — съхранява имената на градовете.
  • страна — съхранява имената на държавите.

Забележка: Анализирах тази база данни с помощта на PostgreSQL. Можете да получите подробности за инсталиране на PostgreSQL тук и да изтеглите базата данни за наемане на DVD тук.

Цел и цели

В този проект ще се стремя да отговоря на следните въпроси:

  1. Кои са най-добрите и най-малко наеманите (търсени) жанрове и какви са общите им продажби?
  2. Можем ли да знаем колко отделни потребители са наели всеки жанр?
  3. Каква е средната наемна ставка за всеки жанр? (от най-високото към най-ниското)
  4. Колко наети филми бяха върнати късно, рано и навреме?
  5. В кои държави Rent A Film присъства и каква е клиентската база във всяка страна? Какви са общите продажби във всяка държава? (от повечето към най-малкото)
  6. Кои са първите 5 клиенти на общи продажби и можем ли да получим техните подробности, в случай че Rent A Film иска да ги награди?

Преди да започна с анализите, първо се опитах да разбера ERM (Entity Relationship Model) на тази база данни, известна също като Schema. Ето схемата по-долу:

Можете да видите кода ми в профила ми в GitHub тук.

Анализ

За да отговоря на първия въпросКои са най-добре и най-малко наеманите (търсени) жанрове и какви са общите им продажби?“, първо идентифицирах с таблици I трябва да се присъединят, които са:

Категория ›film_Category ›film›инвентар ›наем ›клиент ›плащане

По-долу е заявката, която използвах за извличане, за да отговоря на въпроса:

Прозрения

От горната таблица можем да направим 3 основни прозрения:

  • Филм под наемима 16 налични жанра
  • Спортната категория изглежда е най-наеманият жанр по отношение на броя пъти на наемане и също така има най-високите общи продажби по отношение на парите.
  • Музикалната категория е най-малко наеманият жанр по отношение на броя пъти на наемане и има най-ниските общи продажби по отношение на пари

Въпрос 2: Можем ли да знаем колко отделни потребители са наели всеки жанр? Накратко, да, можем.

Масите за присъединяване са както следва:

Категория › film_Category › филм › инвентар › наем › клиент

По-долу е моето запитване за този въпрос:

Прозрения

Исках да знам колко различни клиенти са наели всеки от жанровете. Едно завладяващо нещо от заявката е, че въпреки че музикалният жанр има най-малко общо наети записи, той няма най-малък брой отделни клиенти, които са наели жанра. Жанрът на пътуването държи този рекорд.

Като направим крачка назад и свържем прозренията, получени от въпрос 1 и 2, можем да кажем, че жанрът за пътуване е пренаеман повече пъти от музикалния жанр.

И разбира се, спортният жанр има най-голям брой различни клиенти, които са наели жанра.

Въпрос 3: Каква е средната наемна ставка за всеки жанр? (от най-високата до най-ниската)

Масите за присъединяване са както следва:

Категория › филм_Категория › филм

По-долу е моето запитване за този въпрос:

Прозрения

Продължих да проверя дали броят пъти, когато дадена категория е била наета, има нещо общо със средната наемна ставка за всеки жанр. От горната таблица можем лесно да заключим, че средната наемна ставка може да не е фактор.

Въпреки че жанрът игра има най-ниската средна ставка под наем, той е един от петте най-наемани жанра. Изненадващо музикалният жанр не е най-скъпият - Екшънът е, въпреки че екшън жанрът е един от най-наеманите жанрове.

Спокойно можем да кажем, че повечето клиенти са любители на спортни филми и най-малко се интересуват от музикални.

Въпрос 4: Колко наети филми бяха върнати късно, рано и навреме?

Масите за присъединяване са както следва:

филмови › инвентар › наем

Прозрения

Състоянието на връщане на филми може да е един от най-важните аспекти, които трябва да се наблюдават в бизнеса с DVD под наем. От горната заявка 48% от филмите се връщат по-рано от крайната дата, докато 41% от филмите се връщат със закъснение, а 11% пристигат навреме.

Възможно е да има редица фактори, поради които това може да се случи, като разстоянието за доставка на тези филми от магазините, което може да е напълно извън контрола на клиентите и т.н. Ще трябва да се потопим по-дълбоко в данните, за да разберем същината на проблема.

Въпреки това е разумно да се отбележи, че значителен процент от филмите се връщат със закъснение. Въвеждането на наказателна такса за късно пристигане може да бъде допълнителен източник на доходи и на свой ред да обезсърчи късното връщане.

Но такова решение може да има смисъл само ако знаем защо възниква проблемът.

Въпрос 5: В кои държави Rent A Film присъства и каква е клиентската база във всяка страна? Какви са общите продажби във всяка страна? (От най-много към най-малко)

Масите за присъединяване са както следва:

Държава › Град › Адрес › клиент › плащане

Вижте запитването по-долу:

Прозрения

Rent A Film присъства в 108 страни, като Индия има най-голямата клиентска база от 60 клиента и най-големите общи продажби по отношение на пари. Афганистан има най-малките общи продажби по отношение на пари, въпреки че не е единствената страна с най-малка клиентска база от 1 клиент

Въпрос 6: Кои са първите 5 клиенти спрямо общите продажби и можем ли да получим подробности за тях, в случай че Rent A Film иска да ги възнагради?

Масите за присъединяване са както следва:

Държава › Град › Адрес › клиент › плащане

Вижте запитването по-долу:

Прозрения

Ако приемем, че искаме да възнаградим или изпратим физически подаръци на водещите клиенти, таблицата по-горе показва техните пълни имена, адреси, имейл и т.н.

Тази информация може да бъде изпратена до маркетинговия екип на компанията, за да се използват познанията им в домейна, за да решат как да ги възнаградят.

Заключение

В този проект анализирахме данни от компания за отдаване на DVD под наем, която решихме да наречем „Филм под наем“, за да намерим информация за клиентите и техните предпочитания. Имаме 3 основни извода:

  1. Компанията има клиенти, които обичат спорта и би било препоръчително да съхраняват повече филми, свързани със спорта, за да увеличат общите продажби в сравнение с филмите, свързани с музика. Би било добра идея да се увеличи средната наемна ставка на филмите в спортния жанр, тъй като тя не е основен фактор при наемането на клиентите. Това от своя страна увеличава общите приходи. Въпреки това трябва да се направи допълнителен анализ, за ​​да се направи заключение по този въпрос.
  2. Има потенциал да имате допълнителен източник на приходи чрез такса за късно връщане на филми.
  3. Филм под наемприсъства в 108 държави, като Индия е най-големият пазар за хора и приходи. Освен това, 20% от страните, в които присъстват, допринасят за 80% от общата клиентска база.

P.S. Подобно на мен, всеки може да се научи да бъде анализатор на данни и ако искате да получавате известия за следващия ми проект или актуализации относно обучението ми, не се колебайте да се абонирате за моя бюлетин