У меня есть многомерные (30000 измерений) векторы целых чисел. У меня 2 класса: [ДА, НЕТ]. У меня 6000 образцов ДА-класса и 50000 образцов НЕТ-класса. Я хотел бы обучить классификатор, чтобы в будущем автоматически классифицировать новые образцы по одному из этих классов.
Я знаю, как использовать Weka Java API, но я не уверен, какие алгоритмы и в каком порядке использовать. Может кто подскажет по следующим вопросам:
- Являются ли векторы слишком многомерными или у меня слишком много образцов, чтобы сделать это эффективно в Weka?
- Должен ли я уменьшить размерность, прежде чем начать? Какой алгоритм я могу использовать для определения важных элементов моего вектора признаков?
- Какой классификатор лучше всего подходит для классификации такого рода данных? Я думаю, что дерево решений должно работать нормально, но, может быть, наивный байес быстрее обучается, не так ли?
- Поскольку каждый элемент должен иметь имя в weka, как я могу присвоить имя каждой из моих 30000 функций?
Любые советы приветствуются. Спасибо.