Учитывая проблему классификации, обучающие данные выглядят следующим образом:
input - output
--------------
A 100
B 150
C 170
..............
где A, B, C — большие наборы данных, каждый из которых содержит 6 переменных и около 5000 строк.
Проблема в том, как мне упаковать ввод, чтобы использовать алгоритм классификации для других вводов наборов данных, таких как эти.
Я попытался прикрепить к каждой строке значение классификатора обучения и обучить их как таковые. Для новой записи каждая строка будет классифицирована, и я возьму среднее (среднее) значение в качестве классификатора для всего набора данных. Но у меня не было очень хороших результатов с использованием наивного Байеса.
Должен ли я продолжать изучать этот метод с другими классификаторами? Какие еще варианты я мог бы рассмотреть?
Изменить
Примеры данных из 2 событий
OUT Var1 Var2 Var3 Var4 Var5 Var6
0 93 209.2 49.4 5451.0 254.0 206.0 37.7
1 344.9 217.6 14590.5 191.7 175.5 106.8
2 663.3 97.2 17069.2 144.4 2.8 59.9
3 147.4 137.7 12367.4 194.1 237.7 116.2
4 231.8 162.2 11938.4 71.3 149.1 116.3
OUT Var1 Var2 Var3 Var4 Var5 Var6
964 100 44.5 139.7 10702.5 151.4 36.0 17.9
966 59.8 148.9 3184.9 103.0 96.5 12.8
967 189.7 194.4 7569.6 49.9 82.6 55.2
969 158.5 88.2 2932.4 159.8 232.8 125.2
971 226.4 155.2 3156.3 85.0 4010.5 69.9
Для аналогичного набора данных мне нужно предсказать значение out. У меня много таких образцов.
Правильно ли применять одно и то же значение ко всем строкам?