Свързани публикации 'sklearn'


Глава 8: Намаляване на размерността
Преглед на практическото машинно обучение със Scikit-Learn, Keras & Tensorflow от Aurélien Géron Резюме Намаляването на размерността е актът на вземане на данни с големи размери (данни, които изискват повече от 3 измерения) и намаляване на броя на измеренията, за да улесни работата с данните или да ги направи разумно видими при визуализации на данни. Това намаление е математически тежко и изисква загуба на информация, но в дългосрочен план може да направи данните работещи, когато не..

Шест стъпки за усъвършенстване на вашите данни: Предварителна обработка на данни, част 3
Този урок отговаря на всички следните въпроси: Кои са липсващите стойности? Кога възниква проблемът с липсващите стойности? Защо е важно да се обработват липсващи стойности? Как се обработват липсващите числови стойности? Как се обработват категоричните липсващи стойности? Досега имаме ясна интуиция как да импортираме всички необходими библиотеки и как да импортираме съответния набор от данни и отделни характеристики и целеви променливи. Каква може да е следващата стъпка?..

Как подобрих резултата си в табличното състезание на Kaggle през август 2021 г., използвайки Generic Univariate select...
Kaggle е водещият в света уебсайт за наука за данни, към който се стичат ентусиастите на науката за данни. Едно нещо, от което наскоро бях впечатлен, е фактът, че Kaggle вече предлага месечни таблични състезания, които предлагат на хора като мен, начинаещи, възможност да подобрят уменията си в тази област. Тъй като Kaggle предлага толкова страхотна възможност да подобря уменията си в областта на науката за данни, винаги очаквам с нетърпение тези месечни състезания и работя върху тях..

Разкриване на линейната регресия | Sklearn
(Прилагане на алгоритъм на най-малките квадрати в затворена форма) Предговор Проявявали ли сте някога любопитство относно скритото внедряване на алгоритъма за линейна регресия в scikit-learn ? Ако отговорът ви е да, значи сте на правилното място. В тази история ще ви преведа през разопаковането на линейната регресия според разработката и внедряването в sklearn. Относно линейната регресия Това е линеен подход за моделиране на връзката между скаларна реакция и една или..

Докладът за класификация на Python е обяснен
Матрицата на объркването и докладът за класификацията са индикатори за съответствие на sklearn за класификационни модели. Използвах матрицата на объркването и доклада за класификация, взет от прогнозите, които създадох с помощта на титаничния набор от данни, за да обясня показателите, използвани в доклада за класификация. Матрицата за объркване трябва да се използва заедно с класификационния доклад, за да се идентифицират...

Как да извършим логистична регресия на mtcars?
Логистична регресия • Контролиран машинен алгоритъм, който предвижда вероятността за възникване на двоично събитие • Например определяне дали има вероятност дадено лице да има диабет; ще има два възможни изхода, „да“, те имат диабет, или „не“, те нямат диабет • Този метод е известен като двоична класификация По какво се различава логистичната регресия от линейната регресия? • При линейната регресия целевият резултат е числена непрекъсната стойност, докато при логистичната регресия..

Тест за разделяне и обучение на данни въз основа на слоеве
Когато разделяме набор от данни на тестови и обучаващи набори, често използваме различни тактики за разделяне. Много често методите се основават на произволно избиране на записи и поставянето им в различни комплекти. Например, sklearn има проста функция, която ни позволява лесно да разделим набора си: train_set, test_set = train_test_split(data, test_size=0.2, random_state=42) Има обаче недостатък в този метод: наборите от данни, които получаваме след разделяне, може да са..