Въведение
Наскоро завърших известно обучение по Data Foundation, улеснено от Bertelsmann’s School of Data Science (в партньорство с Udacity). За личен проект реших да анализирам базата данни за компания за DVD под наем, която ще наречем Филм под наем. Нека да разгледаме казус, описващ подробно моя процес и резултат.
Набор от данни
Започнах, като разгледах базата данни. Базата данниDvdRentalима 15 таблици. По-долу са различните таблици и краткото им описание.
- актьор — съдържа данни за актьорите, включително име и фамилия.
- филм — съдържа данни за филми като заглавие, година на издаване, дължина, рейтинг и др.
- film_actor — съдържа връзките между филми и актьори.
- категория — съдържа данни за категориите на филма.
- film_category — съдържащ връзките между филми и категории.
- магазин — съдържа данните за магазина, включително мениджърски персонал и адрес.
- инвентаризация — съхранява данни за инвентара.
- наем — съхранява данни за наем.
- плащане — съхранява плащанията на клиента.
- персонал — съхранява данни за персонала.
- клиент — съхранява данните на клиента.
- адрес — съхранява адресни данни за служители и клиенти
- град — съхранява имената на градовете.
- страна — съхранява имената на държавите.
Забележка: Анализирах тази база данни с помощта на PostgreSQL. Можете да получите подробности за инсталиране на PostgreSQL тук и да изтеглите базата данни за наемане на DVD тук.
Цел и цели
В този проект ще се стремя да отговоря на следните въпроси:
- Кои са най-добрите и най-малко наеманите (търсени) жанрове и какви са общите им продажби?
- Можем ли да знаем колко отделни потребители са наели всеки жанр?
- Каква е средната наемна ставка за всеки жанр? (от най-високото към най-ниското)
- Колко наети филми бяха върнати късно, рано и навреме?
- В кои държави Rent A Film присъства и каква е клиентската база във всяка страна? Какви са общите продажби във всяка държава? (от повечето към най-малкото)
- Кои са първите 5 клиенти на общи продажби и можем ли да получим техните подробности, в случай че Rent A Film иска да ги награди?
Преди да започна с анализите, първо се опитах да разбера ERM (Entity Relationship Model) на тази база данни, известна също като Schema. Ето схемата по-долу:
Можете да видите кода ми в профила ми в GitHub тук.
Анализ
За да отговоря на първия въпрос„Кои са най-добре и най-малко наеманите (търсени) жанрове и какви са общите им продажби?“, първо идентифицирах с таблици I трябва да се присъединят, които са:
Категория ›film_Category ›film›инвентар ›наем ›клиент ›плащане
По-долу е заявката, която използвах за извличане, за да отговоря на въпроса:
Прозрения
От горната таблица можем да направим 3 основни прозрения:
- Филм под наемима 16 налични жанра
- Спортната категория изглежда е най-наеманият жанр по отношение на броя пъти на наемане и също така има най-високите общи продажби по отношение на парите.
- Музикалната категория е най-малко наеманият жанр по отношение на броя пъти на наемане и има най-ниските общи продажби по отношение на пари
Въпрос 2: Можем ли да знаем колко отделни потребители са наели всеки жанр? Накратко, да, можем.
Масите за присъединяване са както следва:
Категория › film_Category › филм › инвентар › наем › клиент
По-долу е моето запитване за този въпрос:
Прозрения
Исках да знам колко различни клиенти са наели всеки от жанровете. Едно завладяващо нещо от заявката е, че въпреки че музикалният жанр има най-малко общо наети записи, той няма най-малък брой отделни клиенти, които са наели жанра. Жанрът на пътуването държи този рекорд.
Като направим крачка назад и свържем прозренията, получени от въпрос 1 и 2, можем да кажем, че жанрът за пътуване е пренаеман повече пъти от музикалния жанр.
И разбира се, спортният жанр има най-голям брой различни клиенти, които са наели жанра.
Въпрос 3: Каква е средната наемна ставка за всеки жанр? (от най-високата до най-ниската)
Масите за присъединяване са както следва:
Категория › филм_Категория › филм
По-долу е моето запитване за този въпрос:
Прозрения
Продължих да проверя дали броят пъти, когато дадена категория е била наета, има нещо общо със средната наемна ставка за всеки жанр. От горната таблица можем лесно да заключим, че средната наемна ставка може да не е фактор.
Въпреки че жанрът игра има най-ниската средна ставка под наем, той е един от петте най-наемани жанра. Изненадващо музикалният жанр не е най-скъпият - Екшънът е, въпреки че екшън жанрът е един от най-наеманите жанрове.
Спокойно можем да кажем, че повечето клиенти са любители на спортни филми и най-малко се интересуват от музикални.
Въпрос 4: Колко наети филми бяха върнати късно, рано и навреме?
Масите за присъединяване са както следва:
филмови › инвентар › наем
Прозрения
Състоянието на връщане на филми може да е един от най-важните аспекти, които трябва да се наблюдават в бизнеса с DVD под наем. От горната заявка 48% от филмите се връщат по-рано от крайната дата, докато 41% от филмите се връщат със закъснение, а 11% пристигат навреме.
Възможно е да има редица фактори, поради които това може да се случи, като разстоянието за доставка на тези филми от магазините, което може да е напълно извън контрола на клиентите и т.н. Ще трябва да се потопим по-дълбоко в данните, за да разберем същината на проблема.
Въпреки това е разумно да се отбележи, че значителен процент от филмите се връщат със закъснение. Въвеждането на наказателна такса за късно пристигане може да бъде допълнителен източник на доходи и на свой ред да обезсърчи късното връщане.
Но такова решение може да има смисъл само ако знаем защо възниква проблемът.
Въпрос 5: В кои държави Rent A Film присъства и каква е клиентската база във всяка страна? Какви са общите продажби във всяка страна? (От най-много към най-малко)
Масите за присъединяване са както следва:
Държава › Град › Адрес › клиент › плащане
Вижте запитването по-долу:
Прозрения
Rent A Film присъства в 108 страни, като Индия има най-голямата клиентска база от 60 клиента и най-големите общи продажби по отношение на пари. Афганистан има най-малките общи продажби по отношение на пари, въпреки че не е единствената страна с най-малка клиентска база от 1 клиент
Въпрос 6: Кои са първите 5 клиенти спрямо общите продажби и можем ли да получим подробности за тях, в случай че Rent A Film иска да ги възнагради?
Масите за присъединяване са както следва:
Държава › Град › Адрес › клиент › плащане
Вижте запитването по-долу:
Прозрения
Ако приемем, че искаме да възнаградим или изпратим физически подаръци на водещите клиенти, таблицата по-горе показва техните пълни имена, адреси, имейл и т.н.
Тази информация може да бъде изпратена до маркетинговия екип на компанията, за да се използват познанията им в домейна, за да решат как да ги възнаградят.
Заключение
В този проект анализирахме данни от компания за отдаване на DVD под наем, която решихме да наречем „Филм под наем“, за да намерим информация за клиентите и техните предпочитания. Имаме 3 основни извода:
- Компанията има клиенти, които обичат спорта и би било препоръчително да съхраняват повече филми, свързани със спорта, за да увеличат общите продажби в сравнение с филмите, свързани с музика. Би било добра идея да се увеличи средната наемна ставка на филмите в спортния жанр, тъй като тя не е основен фактор при наемането на клиентите. Това от своя страна увеличава общите приходи. Въпреки това трябва да се направи допълнителен анализ, за да се направи заключение по този въпрос.
- Има потенциал да имате допълнителен източник на приходи чрез такса за късно връщане на филми.
- Филм под наемприсъства в 108 държави, като Индия е най-големият пазар за хора и приходи. Освен това, 20% от страните, в които присъстват, допринасят за 80% от общата клиентска база.
P.S. Подобно на мен, всеки може да се научи да бъде анализатор на данни и ако искате да получавате известия за следващия ми проект или актуализации относно обучението ми, не се колебайте да се абонирате за моя бюлетин