Свързани публикации 'sklearn'
Глава 8: Намаляване на размерността
Преглед на практическото машинно обучение със Scikit-Learn, Keras & Tensorflow от Aurélien Géron
Резюме
Намаляването на размерността е актът на вземане на данни с големи размери (данни, които изискват повече от 3 измерения) и намаляване на броя на измеренията, за да улесни работата с данните или да ги направи разумно видими при визуализации на данни. Това намаление е математически тежко и изисква загуба на информация, но в дългосрочен план може да направи данните работещи, когато не..
Шест стъпки за усъвършенстване на вашите данни: Предварителна обработка на данни, част 3
Този урок отговаря на всички следните въпроси:
Кои са липсващите стойности? Кога възниква проблемът с липсващите стойности? Защо е важно да се обработват липсващи стойности? Как се обработват липсващите числови стойности? Как се обработват категоричните липсващи стойности?
Досега имаме ясна интуиция как да импортираме всички необходими библиотеки и как да импортираме съответния набор от данни и отделни характеристики и целеви променливи.
Каква може да е следващата стъпка?..
Как подобрих резултата си в табличното състезание на Kaggle през август 2021 г., използвайки Generic Univariate select...
Kaggle е водещият в света уебсайт за наука за данни, към който се стичат ентусиастите на науката за данни. Едно нещо, от което наскоро бях впечатлен, е фактът, че Kaggle вече предлага месечни таблични състезания, които предлагат на хора като мен, начинаещи, възможност да подобрят уменията си в тази област. Тъй като Kaggle предлага толкова страхотна възможност да подобря уменията си в областта на науката за данни, винаги очаквам с нетърпение тези месечни състезания и работя върху тях..
Разкриване на линейната регресия | Sklearn
(Прилагане на алгоритъм на най-малките квадрати в затворена форма)
Предговор
Проявявали ли сте някога любопитство относно скритото внедряване на алгоритъма за линейна регресия в scikit-learn ? Ако отговорът ви е да, значи сте на правилното място. В тази история ще ви преведа през разопаковането на линейната регресия според разработката и внедряването в sklearn.
Относно линейната регресия
Това е линеен подход за моделиране на връзката между скаларна реакция и една или..
Докладът за класификация на Python е обяснен
Матрицата на объркването и докладът за класификацията са индикатори за съответствие на sklearn за класификационни модели.
Използвах матрицата на объркването и доклада за класификация, взет от прогнозите, които създадох с помощта на титаничния набор от данни, за да обясня показателите, използвани в доклада за класификация. Матрицата за объркване трябва да се използва заедно с класификационния доклад, за да се идентифицират...
Как да извършим логистична регресия на mtcars?
Логистична регресия • Контролиран машинен алгоритъм, който предвижда вероятността за възникване на двоично събитие • Например определяне дали има вероятност дадено лице да има диабет; ще има два възможни изхода, „да“, те имат диабет, или „не“, те нямат диабет • Този метод е известен като двоична класификация
По какво се различава логистичната регресия от линейната регресия? • При линейната регресия целевият резултат е числена непрекъсната стойност, докато при логистичната регресия..
Тест за разделяне и обучение на данни въз основа на слоеве
Когато разделяме набор от данни на тестови и обучаващи набори, често използваме различни тактики за разделяне. Много често методите се основават на произволно избиране на записи и поставянето им в различни комплекти.
Например, sklearn има проста функция, която ни позволява лесно да разделим набора си:
train_set, test_set = train_test_split(data, test_size=0.2, random_state=42)
Има обаче недостатък в този метод: наборите от данни, които получаваме след разделяне, може да са..