Имеет ли значение для задач двоичной классификации машинного обучения с несбалансированными классами, какой класс считается положительным? Итак, если класс A является классом большинства, по соглашению я хочу предсказать это или класс меньшинства (класс B)? Это вообще имеет значение?
Какой класс прогнозировать для несбалансированных данных?
Ответы (1)
На самом деле это не имеет значения, но это зависит от вашей основной проблемы. Например, если вы хотите классифицировать медицинский тест, где положительный результат соответствует «заболеванию», и мы предполагаем, что положительные образцы составляют меньшинство, вы, вероятно, захотите предсказать, насколько высока вероятность того, что один человек болен / принадлежит к меньшинству. .
person
Tim
schedule
15.06.2018
Спасибо за ваш ответ! А как насчет ситуации, когда нет четкого ответа «да» или «нет» (например, болезнь присутствует / отсутствует, сделал / пропустил прививку, здоров / нездоров). Я не обязательно имею в виду пример, но как насчет случая, когда нет этой иерархии или структуры, где это просто группа A и группа B - тогда вы склонны идти с классом большинства?
- person Jane Sully; 18.06.2018
В случаях, когда у вас есть только группа A и группа B, это полностью зависит от вас. В целом, класс меньшинства труднее предсказать, и поэтому он более интересен. Я бы порекомендовал вам прочитать статью «Учимся на несбалансированных данных» He et al. (2009), это дает хорошее представление об этой теме.
- person Tim; 18.06.2018