Я читал, что при использовании CNN у нас должно быть примерно одинаковое количество выборок на класс. Я выполняю бинарную классификацию, обнаруживая пешеходов на заднем плане, поэтому 2 класса - это пешеходы и фон (на самом деле все, что не является пешеходом).
Если бы я включил жесткий отрицательный майнинг в свое обучение, у меня было бы больше отрицательных образцов, чем положительных, если я получаю много ложных срабатываний.
1) Будет ли это нормально?
2) Если нет, то как мне решить эту проблему?
3) И каковы последствия обучения CNN с большим количеством отрицательных, чем положительных образцов?
4) Если отрицательных образцов больше, чем положительных, существует ли максимальный предел, который я не должен превышать? Как для например. У меня не должно быть в 3 раза больше отрицательных образцов, чем положительных.
5) Я могу увеличить свои положительные сэмплы за счет дрожания, но сколько дополнительных сэмплов на изображение я должен создать? Есть ли «слишком много»? Например, если я начну с 2000 положительных образцов, сколько дополнительных образцов будет слишком много? Генерация в общей сложности 100 000 сэмплов из 2 000 сэмплов с помощью дрожания слишком велика?