Какой класс прогнозировать для несбалансированных данных?

Имеет ли значение для задач двоичной классификации машинного обучения с несбалансированными классами, какой класс считается положительным? Итак, если класс A является классом большинства, по соглашению я хочу предсказать это или класс меньшинства (класс B)? Это вообще имеет значение?


person Jane Sully    schedule 15.06.2018    source источник


Ответы (1)


На самом деле это не имеет значения, но это зависит от вашей основной проблемы. Например, если вы хотите классифицировать медицинский тест, где положительный результат соответствует «заболеванию», и мы предполагаем, что положительные образцы составляют меньшинство, вы, вероятно, захотите предсказать, насколько высока вероятность того, что один человек болен / принадлежит к меньшинству. .

person Tim    schedule 15.06.2018
comment
Спасибо за ваш ответ! А как насчет ситуации, когда нет четкого ответа «да» или «нет» (например, болезнь присутствует / отсутствует, сделал / пропустил прививку, здоров / нездоров). Я не обязательно имею в виду пример, но как насчет случая, когда нет этой иерархии или структуры, где это просто группа A и группа B - тогда вы склонны идти с классом большинства? - person Jane Sully; 18.06.2018
comment
В случаях, когда у вас есть только группа A и группа B, это полностью зависит от вас. В целом, класс меньшинства труднее предсказать, и поэтому он более интересен. Я бы порекомендовал вам прочитать статью «Учимся на несбалансированных данных» He et al. (2009), это дает хорошее представление об этой теме. - person Tim; 18.06.2018