Няма да пиша много тук, защото съдържанието е почти същото като публикацията на задачата за регресия. Трябва само да добавим нова стъпка, която кодира категоричната променлива в числова, ако не е числова.

В тази публикация ще използвам набор от данни за класификация на пола. Съдържа осем колони с полкатоцел. Можете да получите достъп до набора от данни тук. Това са стъпка по стъпка.

1. Импортирайте необходимите библиотеки

# Data processing
import pandas as pd
from sklearn.model_selection import train_test_split

# Model
from sklearn.linear_model import LogisticRegression

# Evaluation
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

2. Подгответе набора от данни

  • Прочетете данни
data = pd.read_csv("/kaggle/input/gender-classification-dataset/gender_classification_v7.csv")
data.head()
  • Кодиране на целевата променлива
gender_map = {
    'Male': 1,
    'Female': 0
}

data['gender'] = data['gender'].map(gender_map)

3. Разделяне на набор от данни на обучение и валидиране

features = [col for col in data.columns if col != 'gender']
target = ['gender']

X_train, X_val, y_train, y_val = train_test_split(data[features], data[target], test_size=0.2)

4. Подгответе моделите. Сега ще използвам модела LogisticRegression. Има толкова много други модели на класификатори в sklearn, можете да прочетете документацията в уебсайта на sklearn.

# Initialize Model
logreg = LogisticRegression()

# Train Model
logreg.fit(X_train, y_train)

5. Оценяване

  • Създайте прогноза
y_pred = logreg.predict(X_val)
  • Оценка на изпълнението
print('confusion matrix')
print(confusion_matrix(y_val, y_pred))
print()
print('classification report')
print(classification_report(y_val, y_pred))

Можете да намерите пълния код тук.

Толкова просто, нали? Това е всичко за сега, следващия път ще напиша нещо интересно, следете ни. Благодаря ви, че прочетохте :)