Тази публикация е крайният проект на Coursera IBM Data Science Professional specialization. Пълният бележник и данните са налични в Github.

Въведение

Московското метро има 264 станции и е една от най-големите системи за обществен транспорт в света. Използва се от повече от 6 милиона души дневно.

За този проект искаме да разгледаме кварталите около метростанциите и да ги класифицираме. Някои квартали са предимно жилищни, други имат повече бизнес или търговски площи около тях. Местата, които са най-близо до станция, определят защо и как хората я използват. напр. ако в даден квартал няма професионални места, жителите му вероятно ще пътуват до други райони за работа. Това създава ежедневни миграции на хора.

Чрез анализиране на тези данни можем да класифицираме станциите според основното им използване. Тези данни могат да бъдат полезни за градските плановици, за да определят откъде и накъде е най-вероятно хората да пътуват за работа и за почивка, да планират по-нататъшно разширяване на мрежата и да намерят места за ново строителство.

Данни

Ще ни трябват данни за местоположението на станциите и най-близките до тях места.

  1. Списък на станциите и техните географски координати — извлечени от тази страница в Уикипедия.

2. Foursquare API за изследване на видовете места около всяка станция. Foursquare очертава тези категории места на високо ниво с повече подкатегории.

  • Изкуство и развлечения (4d4b7104d754a06370d81259)
  • Колеж и университет (4d4b7105d754a06372d81259)
  • Събитие (4d4b7105d754a06373d81259)
  • Храна (4d4b7105d754a06374d81259)
  • Място за нощен живот (4d4b7105d754a06376d81259)
  • На открито и отдих (4d4b7105d754a06377d81259)
  • Професионални и други места (4d4b7105d754a06375d81259)
  • Жилище (4e67e38e036454776db1fb3a)
  • Пазаруване и обслужване (4d4b7105d754a06378d81259)
  • Пътуване и транспорт (4d4b7105d754a06379d81259)

Ще направим запитване за броя на местата във всяка категория в радиус от 1000 метра около всяка станция. Този радиус е избран, защото 1000 м е разумно пешеходно разстояние.

Методика

Можем да използваме Foursquare explore API с идентификатор на категория, за да направим заявка за броя на местата от всяка категория в определен радиус. Отговорът съдържа стойност totalResultsза посочените координати, радиус и категория. Примерна заявка (1000 м радиус и категория Професионални и други места):

GET https://api.foursquare.com/v2/venues/explore?client_id={{client_id}}&client_secret={{client_secret}}&v={{v}}&ll=55.7662,37.5692&radius=1000&categoryId=  4d4b7105d754a06375d81259

отговор:

{
    "meta": {
        "code": 200,
        "requestId": "5cfec0e31ed21914c1db7dd0"
    },
    "response": {
        "suggestedFilters": {
            "header": "Tap to show:",
            "filters": [
                {
                    "name": "Open now",
                    "key": "openNow"
                }
            ]
        },
        "headerLocation": "Presnensky",
        "headerFullLocation": "Presnensky, Moscow",
        "headerLocationGranularity": "neighborhood",
        "query": "professional",
        "totalResults": 132,
<...>
}

Получихме тези данни за всяка станция. Пълният csv е достъпен на Github.

Проучвателен анализ и основно почистване

Нека да разгледаме данните. Можем да видим например, че станция Turgenevskaya има най-голям брой професионални и други места (192), докато станция Belokamennaya има 0.

Нека да покажем броя на местата като боксплоти (показващи средния брой, разпространението и отклоненията).

Можем да видим, че най-често срещаните категории места са храна, магазин и обслужване и професионални и други места. Събитието съдържа много малко данни, така че ще го отхвърлим.

Подготовка на данни

Нека нормализираме данните, като използваме минимално-максимално мащабиране (скала на броя на местата от 0 до 1, където 0 е най-ниската стойност в набора, а 1 е най-високата). Това едновременно нормализира данните и осигурява лесен за тълкуване резултат. Мащабираната диаграма изглежда така:

Клъстеризиране

Ще използваме „k-означава групиране“. Това бяха предварителните резултати с различен брой клъстери:

  • 2 клъстера показват разделението на горния/центърния град
  • 3 клъстера добавят групиране в центъра на града
  • 4 клъстера също идентифицират квартали с много малък брой места
  • 5 и повече клъстера са трудни за тълкуване

За окончателен анализ нека се спрем на 4 клъстера (0 до 3). Нека визуализираме профилите на клъстерите с помощта на boxplots.

И ги начертайте върху карта (пълната интерактивна карта е достъпна на адрес https://theptyza.github.io/map_moscow_metro_foursquare/map/).

За всяка станция ще покажем топ 3 категории места и техните резултати от 0 до 1 за тази категория.

Резултати

Ето как можем да характеризираме клъстерите, като разгледаме резултатите на мястото:

  • Клъстер 0 (син) има постоянно високи резултати за всички категории места. Това е най-разнообразно развитата част на града
  • Клъстер 1 (зелен) има най-високи оценки за професионални и други места. Това е бизнес частта на града.
  • Клъстер 2 (Оранжев) има по-ниски оценки с най-добри резултати в Професионални, Резиденция и Магазин и обслужване.
  • Клъстер 3 (червен) има ниски оценки навсякъде. Това изглежда са слабо развити райони.

Начертаването на клъстерите върху карта ни показва, че:

  • Клъстер 0 е най-старата централна част на града
  • Клъстер 1 също е в центъра. Повечето от тези станции са вътре или близо до Circle Line и имат отлична транзитна достъпност.
  • Клъстери 2 и 3 не са толкова ясно географски разпределени. Областите от клъстер 3 обикновено са в покрайнините, но някои са по-централно разположени.

Някои станции бяха класифицирани като клъстер 3, въпреки че бяха по-централно и достъпно разположени. Това може да е наследство от Ръждивия пояс от затворени и изоставени фабрики. В тази категория попадат много станции на наскоро откритата железопътна линия „Московски централен кръг“. Това са първокласни райони за бизнес и жилищно строителство.

Дискусия

Честно казано, данните на Foursquare не са всеобхватни. Най-много места има в категориите Храни и Магазини и услуги. Данните не вземат предвид размера на мястото (напр. сграда на университет привлича много повече хора, отколкото щанд за хот дог - всеки от тях все още е едно „място“ на Foursquare).

Заключение

Данните от Foursquare са ограничени, но могат да предоставят представа за развитието на града. Тези данни могат да се комбинират с други източници (напр. данни за града относно броя на жителите), за да се предоставят по-точни резултати.