Я работаю над churn
прогнозированием (перейдет ли клиент в другую компанию) в телекоммуникационной отрасли, используя _2 _ (_ 3_). У меня есть набор данных со следующей структурой (csv
данных):
number vmail messages,total call minutes,total number of calls,total call charge,number of customer service calls,churn
В этом последнем столбце (churn
) является столбец значений true
или false
и служит меткой. Во время тестирования я хочу предсказать значения для этого столбца (либо истина-ложь, либо 0-1). Я сомневаюсь, что как я могу обучить данные с помощью алгоритма Spark MLlibs
decision tree
? Я просматривал regression example
, указанный в документации, и я не могут понять, где они предоставляют labels
во время фазы обучения. В примере есть:
val categoricalFeaturesInfo = Map[Int, Int]()
val impurity = "variance"
val maxDepth = 5
val maxBins = 32
val model = DecisionTree.trainRegressor(trainingData, categoricalFeaturesInfo, impurity,
maxDepth, maxBins)
Поскольку это обучение с учителем, не должны ли мы также предоставлять метки при обучении модели?
Как я могу обучить мою модель на моих данных, предоставив labels
, а затем протестировать, чтобы предсказать labels
для тестовых данных?