Как лучше всего классифицировать многомерный вектор с помощью API weka?

У меня есть многомерные (30000 измерений) векторы целых чисел. У меня 2 класса: [ДА, НЕТ]. У меня 6000 образцов ДА-класса и 50000 образцов НЕТ-класса. Я хотел бы обучить классификатор, чтобы в будущем автоматически классифицировать новые образцы по одному из этих классов.

Я знаю, как использовать Weka Java API, но я не уверен, какие алгоритмы и в каком порядке использовать. Может кто подскажет по следующим вопросам:

  1. Являются ли векторы слишком многомерными или у меня слишком много образцов, чтобы сделать это эффективно в Weka?
  2. Должен ли я уменьшить размерность, прежде чем начать? Какой алгоритм я могу использовать для определения важных элементов моего вектора признаков?
  3. Какой классификатор лучше всего подходит для классификации такого рода данных? Я думаю, что дерево решений должно работать нормально, но, может быть, наивный байес быстрее обучается, не так ли?
  4. Поскольку каждый элемент должен иметь имя в weka, как я могу присвоить имя каждой из моих 30000 функций?

Любые советы приветствуются. Спасибо.


person Kenyakorn Ketsombut    schedule 12.09.2013    source источник


Ответы (1)


  1. Количество измерений этой проблемы, безусловно, довольно велико, но я считаю, что Weka должна быть в состоянии справиться с большим количеством измерений. Количество выборок не должно быть проблемой, но выборок класса НЕТ намного больше, чем классов ДА, поэтому их балансировка может помочь лучше классифицировать случаи класса НЕТ.

  2. Если вы считаете, что есть лишние измерения или некоторые из измерений могут содержать шум, то это, безусловно, поможет.

  3. Дерево решений не должно быть слишком большой проблемой. В Weka доступно несколько алгоритмов, но я бы не рекомендовал нейронные сети, учитывая масштабность проблемы.

  4. Если вы сохранили данные в файле CSV, вы можете назначить имена атрибутов в первой строке данных. Таким образом, вы можете присваивать имена атрибутам. Учитывая количество измерений, вы, вероятно, назовете их от a1 до a30000 и выведете для выходного класса.

Надеюсь это поможет!

person Matthew Spencer    schedule 12.09.2014