Няма да пиша много тук, защото съдържанието е почти същото като публикацията на задачата за регресия. Трябва само да добавим нова стъпка, която кодира категоричната променлива в числова, ако не е числова.
В тази публикация ще използвам набор от данни за класификация на пола. Съдържа осем колони с полкатоцел. Можете да получите достъп до набора от данни тук. Това са стъпка по стъпка.
1. Импортирайте необходимите библиотеки
# Data processing import pandas as pd from sklearn.model_selection import train_test_split # Model from sklearn.linear_model import LogisticRegression # Evaluation from sklearn.metrics import confusion_matrix from sklearn.metrics import classification_report
2. Подгответе набора от данни
- Прочетете данни
data = pd.read_csv("/kaggle/input/gender-classification-dataset/gender_classification_v7.csv") data.head()
- Кодиране на целевата променлива
gender_map = { 'Male': 1, 'Female': 0 } data['gender'] = data['gender'].map(gender_map)
3. Разделяне на набор от данни на обучение и валидиране
features = [col for col in data.columns if col != 'gender'] target = ['gender'] X_train, X_val, y_train, y_val = train_test_split(data[features], data[target], test_size=0.2)
4. Подгответе моделите. Сега ще използвам модела LogisticRegression. Има толкова много други модели на класификатори в sklearn, можете да прочетете документацията в уебсайта на sklearn.
# Initialize Model logreg = LogisticRegression() # Train Model logreg.fit(X_train, y_train)
5. Оценяване
- Създайте прогноза
y_pred = logreg.predict(X_val)
- Оценка на изпълнението
print('confusion matrix') print(confusion_matrix(y_val, y_pred)) print() print('classification report') print(classification_report(y_val, y_pred))
Можете да намерите пълния код тук.
Толкова просто, нали? Това е всичко за сега, следващия път ще напиша нещо интересно, следете ни. Благодаря ви, че прочетохте :)