Сбалансированный случайный лес в R с использованием H2O

В связи с тем, что в настоящее время я работаю над очень несбалансированной проблемой классификации нескольких классов, я рассматриваю сбалансированные случайные леса (https://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf). У вас есть опыт реализации сбалансированных случайных лесов с помощью H2O? Если да, то не могли бы вы уточнить следующий вопрос:

Можно ли вообще изменить процесс создания бутстрап-выборок в H2O по умолчанию, чтобы получить сбалансированные подвыборки (для каждой итерации в случайном лесу брать бутстрап-выборку из класса меньшинства? замена, из большинства классов) исходного набора данных для каждого растущего дерева?

r h2o random-forest multiclass-classification

Flo 23.08.2018 источник

Ответы (1)

arrow_upward
0
arrow_downward

Случайный лес H2O не выполняет начальную загрузку, вместо этого он производит выборку со скоростью 63,2% (что является ожидаемым значением уникальных строк в любой выборке с начальной загрузкой).

Если вы хотите получить сбалансированную выборку, вы можете использовать параметр balance_classes с class_sampling_factors или weights_column

Lauren 23.08.2018

Сбалансированный случайный лес в R с использованием H2O

Ответы (1)

Похожие вопросы