Тежестта на доказателствата (WOE) и информационната стойност (IV) са прости, но мощни техники за извършване на трансформация и селекция на променливи.

Тежест на доказателствата

Формулата за изчисляване на тежестта на доказателствата за всяка характеристика е дадена от

Тежестта на доказателствата показва предсказващата сила на една характеристика

Как да тълкуваме горната формула

Ако някоя от категориите/кошовете на функция има голям дял събития в сравнение с дела не-събития, ще получим висока стойност на WOE, което от своя страна казва, че този клас на функцията разделя събитията от не-събитията .

Например

От горната снимка разпределението на блага е високо в сравнение с разпределението на лошо за 0. Това означава, че е по-вероятно целевата стойност да бъде 0 (без събитие). Стойността WOE само ни казва колко уверени сме че функцията ще ни помогне да предвидим правилно вероятността от събитие.

Предимства на WoE

1.WoE ни дава инструмент за проверка на линейната връзка със зависимия елемент. При подреждането на числова характеристика във възходящ ред, ако всички стойности на WoE са линейни, ние знаем, че характеристиката има правилната линейна връзка с целта. Въпреки това, ако WoE на характеристиката е нелинейна, трябва или да я отхвърлим, или да разгледаме някои друга променлива трансформация, за да се гарантира линейността

2.WoE е добър метод за трансформация на променливи както за непрекъснати, така и за категорични характеристики.

Информационна стойност

Уравнението за IV е

Как да интерпретираме IV стойността?

Таблицата по-долу ви дава фиксирано правило, което да ви помогне да изберете най-добрите характеристики за вашия модел

Функция Python за изчисляване на WoE и IV стойности

Сега можете да извършвате WOE трансформация на променлива и избор на IV променлива с помощта на Python. Забавлявай се!