Сбалансированный случайный лес в R с использованием H2O

В связи с тем, что в настоящее время я работаю над очень несбалансированной проблемой классификации нескольких классов, я рассматриваю сбалансированные случайные леса (https://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf). У вас есть опыт реализации сбалансированных случайных лесов с помощью H2O? Если да, то не могли бы вы уточнить следующий вопрос:

Можно ли вообще изменить процесс создания бутстрап-выборок в H2O по умолчанию, чтобы получить сбалансированные подвыборки (для каждой итерации в случайном лесу брать бутстрап-выборку из класса меньшинства? замена, из большинства классов) исходного набора данных для каждого растущего дерева?


person Flo    schedule 23.08.2018    source источник


Ответы (1)


Случайный лес H2O не выполняет начальную загрузку, вместо этого он производит выборку со скоростью 63,2% (что является ожидаемым значением уникальных строк в любой выборке с начальной загрузкой).

Если вы хотите получить сбалансированную выборку, вы можете использовать параметр balance_classes с class_sampling_factors или weights_column

person Lauren    schedule 23.08.2018