Свързани публикации 'exploratory-data-analysis'


Прогнозиране на цените на жилищата в Мелбърн
Анализ и прогноза за цените на жилищния пазар с помощта на Cross Validation и Grid Search в няколко регресионни модела В тази статия анализирам факторите, свързани с цените на жилищата в Мелбърн, и правя прогнози за цените на жилищата, използвайки няколко техники за машинно обучение: Линейна регресия , Регресия на Ридж , K-най-близки съседи (по-нататък KNN) и Дърво на решения . Използвайки методите на кръстосаното валидиране и техниките за търсене в решетка, намирам оптималните..

Линейна регресия — От EDA до оптимизиране на модел (част 1)
В този блог изграждаме препоръчителен модел от нулата за оценка на размера на екипажа за потенциални купувачи на кораби, като използваме набора от данни cruise_ship_info.csv . Този блог ще се потопи дълбоко в теоретичните и практически концепции в машинното обучение и науката за данни, за да ви помогне да разберете напълно точките по-долу — Защо този модел (линеен/нелинеен)? Как да изберете функции само чрез анализиране на данни и също чрез алгоритми за избор на функции?..

Прогноза за цената на къщата в Макасар (част 1)
Макасар е коронован за града с най-бързата интернет скорост в Индонезия въз основа на доклад на speedtest.net през третото тримесечие на 2021 г. Тази информация със сигурност е много интересна, особено когато пандемията Covid 19 настъпи през 2020 г. (това се случва и днес), нашата нужда от интернет стана много по-голяма. След като се случи пандемията, много дейности се извършват онлайн, като например за училище, работа, уеб семинари и много други дейности. Това прави скоростта на..

Предложение за цена на Mercari - цялостен казус.
„Данните се превръщат в новата суровина за бизнеса.“ – От Крейг Мънди Системата за предложения и препоръки за цена на продукта е проблем, който е доста често срещан в днешно време в уебсайтове за електронна търговия. Когато бяха въведени термините „машинно обучение“ и „задълбочено обучение“, фирма като Mercari е пример за това, която е най-голямата общност за онлайн пазаруване в Япония, основана през 1991 г. и управлявана от пазар с JPY (японски йени) 10 милиона в месечни..

Работа с обобщени таблици на Pandas
Преди да проучите осевите таблици в pandas, важно е да разберете какво точно представлява обобщената таблица и как можем да я използваме в нашите проекти за наука за данни. Пивотна таблица Обобщената таблица е инструмент за обобщаване на данни, който обикновено се използва в програми за електронни таблици като Microsoft Excel или Google Sheets. Използва се за извличане и анализиране на големи количества данни чрез реорганизиране и извършване на операции за обобщаване, като..

Прогноза за изтичане на клиенти и извличане на прозрения от ML модел
Въведение Телекомуникационният оператор Interconnect би искал да може да прогнозира отлив на клиенти. Ако се установи, че даден потребител планира да напусне, ще му бъдат предложени промоционални кодове и специални опции за план. Маркетинговият екип на Interconnect е събрал някои от личните данни на своите клиенти, включително информация за техните планове и договори. Цели Боравене с данни за дисбаланс — Първо ще изпълним модела без обработка на дисбаланс, след което ще..

Различни начини за получаване на набори от данни за вашите задачи в областта на науката за данни
Ресурси за намиране на набори от данни, подходящи за вашите нужди. Докато преглеждах списъка на статиите, които съм написал до момента, открих, че доста са свързани с концепцията за придобиване на набори от данни за задачи в областта на науката за данни. Някои от тези статии са насочени към намиране на добри уебсайтове за набори от данни, докато други разглеждат начини за създаване на персонализирани набори от данни. Тази статия е компилация от различни концепции, разгледани в..