Невронните мрежи като дърво на решенията

Повече или по-малко очевидни транспозиции

Тази публикация е вдъхновена от скорошна статия (която няма да покрием), заявяваща, че невронните мрежи са дървета на решенията. Очевидно това не е единствената статия, която засяга темата. Обръщайки твърде много внимание на определени статии - заявявайки, че невронните мрежи са дървета на решенията, композиции от сплайни, "ядрови машини" - човек може да се окаже, че вярва, че невронните мрежи са еквивалентни на всяка ML конструкция, която реши да назове...

ReLU активирането естествено определя дървовидните структури

Следният прост аргумент е от статията Към интерпретируеми ANN: Точна трансформация към многокласови многовариантни дървета за вземане на решения от Nguyena, Kasmarika и Abbass. Помислете за невронна мрежа с подаване напред, чиито скрити слоеве се активират от функцията ReLU. Поправете скрит слой, да кажем k-тия — мислим за него като за присвоен само за да пропуснем индекса k. Индексътj се отнася за този слой, индексът i се отнася за предходния слой ((k-1)-ия слой). Означете с zⱼ стойността на скрития възел j в слой k преди активирането:

Стойностите на H са активациите от предходния слой (входове към k-ия слой), а bⱼ е член на отклонение. Стойностите след активиране h може да съвпадат със стойностите на z или не (в този случай ReLU активирането връща 0). Възможностите са показани на следващата фигура.

Поради естеството на ReLU активирането изходът на възел след прилагане на ReLU активиране е или 0, или същата стойност за входа към този възел, преди активиране (т.е. hⱼ = zⱼ). По този начин е лесно да се види, че всеки скрит слой на невронната мрежа може да бъде трансформиран в двоично дърво на решенията. Решението на всеки етап от дървото се взема чрез активирането на съответния възел в скрития слой въз основа на ограничението дали стойността преди функцията за активиране е по-голяма от 0 или не.

Що се отнася до „обяснимостта“, ясно е, че размерът на дървото нараства експоненциално с нарастването на размера на мрежата; това е като преминаване от една черна кутия в друга.

C-Net

Съществува метод за генериране на многовариантни дървета на решения (MDT) от невронни мрежи. Представяме първата C-Net архитектура (има нова версия, която няма да покрием). Процедурата е следната. След като невронната мрежа е обучена, се въвеждат нови данни и се изчисляват резултатите от последния скрит слой. С други думи, от набор от тренировъчни и тестови данни, означени съответно с ‹Xₜ, Yₜ› и ‹Xᴛ, Yᴛ›, можем да изчислим съпоставянето между последния скрит изходен слой и изхода, означен като ‹Hₜ, Yₜ› и ‹Hᴛ, Yᴛ›. Запазваме тези два набора, представляващи връзката между последния скрит слой и изходния слой, за следващия етап, в който те се използват за обучение на Quinlan C5 едномерно дърво на решенията (UDT), чийто алгоритъм адаптира коефициент на ентропийна информация за критерий за разклонение. След това знаем, че дървото на решенията може да бъде представено от набор от полиедри, изразени под формата на линейни ограничения. Тези ограничения имат формата Hⱼ(Xₜ) op Cⱼ, където op представлява двоичните оператори {≤, ‹, =, › , ≥} и Cⱼ е числовият праг на такова ограничение на входа Hⱼ. За да се получи многовариантно за на израза, е необходима обратна проекция от изхода на невронната мрежа към входа на невронната мрежа.

Алгоритъмът е следният.

Първоначално публикувано в m0nads.

„Подкрепете този блог“.

Полезни връзки

Невронните мрежи са дървета за вземане на решения
C.Aytekin
arXiv:2210.05189 [cs.LG], 2022 г.

Към интерпретируеми ANN: Точна трансформация към многокласови многовариантни дървета за вземане на решения
D. T. Nguyen, K. E. Kasmarik, H. A. Abbass
arXiv:2003.04675 [cs.LG], 2020.

C-Net: Метод за генериране на недетерминистични и динамични многовариантни дървета за вземане на решения
H. A. Abbass, M. Towsey, G. D. Finn
Knowledge and Information Systems Volume, 3 Issue, pp. 184–197, 2001 (връзка).

Токоизправител (активиране на ReLu) — запис в Уикипедия.

Илюзията за учене („връзка“).

Обясним AI — запис в Уикипедия.