А. Введение

А.1. Описание и анализ фона

Стамбул - один из крупнейших мегаполисов мира, в котором проживает более 15 миллионов человек, а плотность населения составляет 2,813 человек на квадратный километр. Как житель этого города, я решил использовать Стамбул в своем проекте. Всего город разделен на 39 районов. Однако тот факт, что районы втиснуты в площадь примерно 72 квадратных километров, приводит к тому, что город имеет очень переплетенную и смешанную структуру [1].

Как видно из рисунков, Стамбул - город с высокой плотностью населения. Густонаселенность приводит к тому, что владельцы магазинов и мест для общения в городе густо населены. Когда мы думаем об этом со стороны инвестора, мы ожидаем, что он предпочтет районы, где стоимость недвижимости ниже, а тип бизнеса, который они хотят создать, менее интенсивен. Если мы думаем о горожанах, они могут захотеть выбрать регионы, где стоимость недвижимости также ниже. В то же время они могут захотеть выбрать район по плотности социальных мест. Однако в настоящее время сложно получить информацию, которая направит инвесторов в этом направлении.

Когда мы рассмотрим все эти проблемы, мы можем создать карту и информационную диаграмму, на которой указан индекс недвижимости Стамбула, а каждый район сгруппирован в соответствии с плотностью проведения мероприятий.

А.2. Описание данных

Чтобы рассмотреть проблему, мы можем перечислить данные, как показано ниже:

  • Я нашел административные единицы второго уровня Турции из хранилища пространственных данных Нью-Йоркского университета [2]. Файл .json содержит координаты всего города Турции. Я очистил данные и сократил их до города Стамбул, где я использовал их для создания картографической карты индекса цен на жилье в Стамбуле.
  • Я использовал Forsquare API, чтобы получить наиболее часто встречающиеся места в данном районе Стамбула [3].
  • Общедоступных данных, связанных с демографическими и социальными параметрами Стамбула, не так много. Поэтому в большинстве случаев вы должны создавать свои собственные таблицы данных. В данном случае я собрал последние средние цены продажи жилья на квадратный метр для каждого района Стамбула с веб-страницы розничной торговли жилищем [4].
  • Я использовал Google Map, опцию «Search Nearby», чтобы получить координаты центра каждого района. [5].

B. Методология

В качестве базы данных в своем исследовании я использовал репозиторий GitHub. Мои основные данные, которые содержат основные компоненты Район, Средняя цена дома, Широта и Долгота, информация о городе.

Я использовал библиотеку python folium для визуализации географических деталей Стамбула и его районов, и я создал карту Стамбула с наложенными сверху районами. Я использовал значения широты и долготы, чтобы получить визуальное представление, как показано ниже:

Я использовал Foursquare API, чтобы исследовать районы и сегментировать их. Я разработал ограничение как 100 мест и радиус 750 метров для каждого района, исходя из данных широты и долготы. Вот заголовок списка, информация о названии, категории, широте и долготе мест от Forsquare API.

В итоге Foursquare вернул 43 площадок. Вот объединенная таблица районов и заведений.

Мы видим, что Кадыкёй, Малтепе, Бейоглу, Бешикташ, Шишли и Фатих достигли ограничения 100 мест. С другой стороны; Районы Пендик, Арнавуткой, Тузла, Адалар, Бююкчекмедже, Султангази, Чекмекой, Бейликдюзю, Султангази находятся ниже 20 мест в наших координатах с широтой и долготой на графике ниже.

Результат не означает, что запрос включает все возможные результаты в районах города. Фактически, это зависит от заданной информации о широте и долготе, и здесь мы просто запускаем одну пару широты и долготы для каждого района. Мы можем расширить возможности с помощью информации о районе, добавив больше информации о широте и долготе.

Подводя итог этому графику, Foursquare вернул 256 уникальных категорий, затем я создал таблицу, которая показывает список из 10 лучших категорий мест для каждого района в таблице ниже.

У нас есть несколько общих категорий заведений в районах. По этой причине я использовал алгоритм K-средних без учителя, чтобы сгруппировать районы. Алгоритм K-средних - один из наиболее распространенных кластерных методов обучения без учителя.

Во-первых, я использую К-средние, чтобы сгруппировать районы в кластеры 3, потому что, когда я анализирую К-средние с помощью метода локтя, он гарантировал мне 3 степень для оптимального k из К-средних.

Вот моя объединенная таблица с метками кластеров для каждого района.

Мы также можем оценить количество 1-го места по распространенности в каждом кластере. Таким образом, мы можем создать гистограмму, которая может помочь нам найти правильные имена меток для каждого кластера.

Когда мы исследуем приведенный выше график, мы можем пометить каждый кластер следующим образом:

  • Кластер 0: «Кафе».
  • Кластер 1: «Множественные социальные сети»
  • Кластер 2: «Размещение и интенсивные кафе»

Мы также можем изучить, какова частота средних цен продажи жилья в разных диапазонах. Таким образом, гистограмма может помочь в визуализации:

Как видно на гистограмме выше, мы можем определить диапазоны, как показано ниже:

  • 4000 AHP: «Низкий уровень HSP»
  • 4000–6000 AHP: «HSP среднего уровня 1»
  • 6000–8000 AHP: «HSP среднего уровня 2»
  • 8000–10000 AHP: «High-1 Level HSP»
  • ›10000 AHP:« High-2 Level HSP »

Одной из моих целей было также показать на карте количество трех лучших мест для каждого района. Таким образом, я сгруппировал каждый район по количеству трех лучших мест и объединил эту информацию в столбце Присоединиться.

C. Результаты

Давайте объединим эти новые переменные со связанной информацией о кластере в нашей основной главной таблице.

Теперь вы можете видеть столбцы Join, Labels и Level_labels как последние три в приведенной выше таблице. Вы также можете увидеть сгруппированную карту районов Стамбула.

В разделе «Сводка» одной из моих целей было также визуализировать средние цены продажи жилья за квадратный метр с помощью карты в стиле хороплет. Таким образом, сначала я загрузил json-файл административных единиц второго уровня Турции из хранилища пространственных данных Нью-Йоркского университета [2]. Я почистил json файл и вытащил только город Стамбул.

В последнем разделе я создал карту хороплетов, на которой также есть следующая информация для каждого района:

  • Название городка,
  • Название кластера,
  • Уровни продажной цены жилья (HSP),
  • Топ-3 места проведения

D. Обсуждение

Как я упоминал ранее, Стамбул - большой город с высокой плотностью населения в узкой местности. Общее количество измерений и плотность населения 39 районов в целом могут варьироваться. Поскольку существует такая сложность, можно попробовать самые разные подходы в исследованиях кластеризации и классификации. Более того, очевидно, что не каждый метод классификации может дать столь же качественные результаты для этого мегаполиса.

Я использовал алгоритм Kmeans как часть этого исследования кластеризации. Когда я тестировал метод локтя, я установил оптимальное значение k равным 3. Однако использовались только координаты 39 районов. Для получения более подробных и точных указаний набор данных может быть расширен, а также можно детализировать детали района или улицы.

Я также провел анализ данных на основе этой информации, добавив координаты районов и средние цены продажи домов в виде статических данных на GitHub. В будущих исследованиях к этим данным также можно будет получить динамический доступ с определенных платформ или пакетов.

Я закончил исследование, визуализировав данные и информацию о кластерах на карте Стамбула. В будущих исследованиях прямые инвесторы могут подавать заявки через Интернет или по телефону.

F. Заключение

В результате люди обращаются в большие города, чтобы начать бизнес или работать. По этой причине люди могут достичь лучших результатов за счет доступа к платформам, на которых предоставляется такая информация.

Не только инвесторы, но и городские менеджеры могут управлять городом более регулярно, используя аналогичные типы или платформы анализа данных.

G. Ссылки: