Публикации по теме 'exploratory-data-analysis'


Прогнозирование цен на жилье в Мельбурне
Анализ и прогноз цен на рынке жилья с использованием перекрестной проверки и поиска по сетке в нескольких регрессионных моделях. В этой статье я анализирую факторы, связанные с ценами на жилье в Мельбурне, и делаю прогнозы цен на жилье, используя несколько методов машинного обучения: Линейная регрессия , Ридж-регрессия , K-ближайших соседей (далее KNN) и Дерево решений . Используя методы перекрестной проверки и поиска по сетке, я нахожу оптимальные значения гиперпараметров в..

Линейная регрессия — От EDA к оптимизации модели (часть 1)
В этом блоге мы создаем рекомендательную модель с нуля для оценки размера экипажа для потенциальных покупателей судов, используя набор данных cruise_ship_info.csv . В этом блоге мы подробно рассмотрим теоретические и практические концепции машинного обучения и науки о данных, чтобы помочь вам полностью понять следующие моменты: Почему эта модель (линейная/нелинейная)? Как выбрать функции, просто анализируя данные, а также с помощью алгоритмов выбора функций? Зачем и..

Прогноз цен на дом в Макассаре (часть 1)
Согласно отчету speedtest.net за третий квартал 2021 года, Макассар был назван городом с самой высокой скоростью интернета в Индонезии. Эта информация, безусловно, очень интересна, особенно когда в 2020 году произошла пандемия Covid 19 (это происходит и сегодня), наша потребность в Интернете стала намного выше. После пандемии многие мероприятия проводятся в Интернете, например, для учебы, работы, вебинаров и многих других мероприятий. Это делает скорость интернета решающим фактором для..

Mercari Price Suggestion — сквозное тематическое исследование.
«Данные становятся новым сырьем для бизнеса». — Крейг Манди Система предложения и рекомендации по цене продукта — это проблема, которая в настоящее время довольно часто встречается на веб-сайте электронной коммерции. Когда были придуманы термины «машинное обучение» и «глубокое обучение», примером этого является такая фирма, как Mercari, которая является крупнейшим в Японии интернет-магазином, основанным в 1991 году и управляемым рынком с JPY (японские иены) 10 миллионов в..

Работа со сводными таблицами Pandas
Прежде чем изучать сводные таблицы в пандах, важно понять, что такое сводная таблица и как мы можем использовать ее в наших проектах по обработке и анализу данных. Сводная таблица Сводная таблица — это инструмент суммирования данных, обычно используемый в программах для работы с электронными таблицами, таких как Microsoft Excel или Google Sheets. Он используется для извлечения и анализа больших объемов данных путем реорганизации и выполнения операций суммирования, таких как..

Прогнозирование оттока клиентов и извлечение информации из модели машинного обучения
Введение Оператор связи Interconnect хотел бы иметь возможность прогнозировать отток клиентов. Если выяснится, что пользователь планирует уйти, ему будут предложены промокоды и специальные варианты плана. Маркетинговая команда Interconnect собрала некоторые личные данные своих клиентов, включая информацию об их планах и контрактах. Цели Обработка данных о дисбалансе — Сначала мы выполним модель без обработки дисбаланса, затем мы будем использовать технику как передискретизации,..

Различные способы получения наборов данных для ваших задач по науке о данных
Ресурсы для поиска наборов данных, подходящих для ваших нужд. Просматривая список статей, которые я написал на сегодняшний день, я обнаружил, что довольно много из них были связаны с концепцией получения наборов данных для задач науки о данных. Некоторые из этих статей нацелены на поиск хороших веб-сайтов с наборами данных, в то время как другие рассматривают способы создания пользовательских наборов данных. Эта статья представляет собой сборник различных концепций, рассмотренных в..