Обективен
Когато става въпрос за получаване на бизнес прозрения от таблични данни, най-интересните въпроси често не могат да бъдат отговорени само с данни от наблюдения. Тези въпроси могат да бъдат подобни на:
- „Какво ще стане, ако намаля наполовина цената на моя продукт?“
- „Кои клиенти ще си платят задълженията само ако им се обадя?“
Джудея Пърл и неговата изследователска група са разработили през последните десетилетия солидна теоретична рамка за справяне с това, но първите стъпки към обединяването й с основното машинно обучение тепърва започват.
Причинно-следствената графика е централен обект в рамката, разработена от Джудея Пърл и неговата изследователска група, но често е неизвестна, подлежи на лични познания и пристрастия или е слабо свързана с наличните данни.
Целта на този проект е да подчертае важността на въпроса по конкретен начин. Опитайте се да изпълните следните задачи:
- Изпълнете задача за причинно-следствени изводи, като използвате рамката на Pearl
- Изведете причинно-следствената графика от данни от наблюдения и след това валидирайте графиката
- Обединете машинното обучение с причинно-следствените изводи
Преглед на данните
Данните, използвани за този проект, са взети от Набор от данни за рака на гърдата в Уисконсин (диагностика) | Kaggle.
Характеристиките в данните са изчислени от дигитализирано изображение на аспирация с тънка игла (FNA) на гръдна маса.
Информация за атрибута:
- Идентификационен номер
- Диагноза (M = злокачествено, B = доброкачествено)
- Останалите (3–32)
- Десет характеристики с реална стойност се изчисляват за всяко клетъчно ядро:
- радиус (средно на разстоянията от центъра до точките по периметъра)
- текстура (стандартно отклонение на стойностите в сивата скала)
- Периметър
- ■ площ
- гладкост (локални вариации в дължините на радиуса)
- компактност (периметър² / площ — 1,0)
- вдлъбнатина (тежест на вдлъбнати части от контура)
- вдлъбнати точки (брой вдлъбнати части от контура)
- Симетрия
- фрактално измерение („приближение на бреговата линия“ — 1)