В глава 3 на „Главният алгоритъм“ от Педро Домингос има пример за дърво на решенията за това как компютър може да определи политическата принадлежност на дадено лице. Самото дърво, отгоре надолу, върви нещо от рода на: Искате ли да намалите данъците? Ако не, вероятно сте демократ. Ако да, вие Pro-Life ли сте? Ако да, вероятно сте републиканец. Ако не, подкрепяте ли контрола върху оръжията? Ако да, вероятно сте демократ. Ако не, вероятно сте независим. Дървото на решенията използва игра от 21 въпроса, за да реши вашата принадлежност. Можем да направим същото с науката за данни и да определим тенденции, модели и аномалии в наборите от данни.

Разбиването на въпроси върху набор от данни е фантастичен начин да се каже „филтриране“. Извършваме запитване към нашите данни, за да получим информацията, която търсим. Ако използваме данни за трафика от град Бостън, можем да видим кога и къде възникват най-много задръствания и да имаме физическо доказателство за това къде са проблемите. Вземете набор от данни за трафика, сортирайте по най-голямото задръстване и погледнете тази област, когато разработвате бъдещи проекти за улично строителство. Това позволява на градските и правителствените служители да вземат по-добри, по-образовани решения по отношение на неща, които не са могли да измерват в миналото. Как това е свързано с дървото на решенията? Можем да разгледаме дървото на решенията на строителните проекти, като данните за трафика са решаващ фактор. Нивото на задръстване над 70% ли е? Ако не, няма нужда от строителство. Ако отговорът е да, има ли структури, които предотвратяват разширяването на пътя? Ако не, можем да разширим пътя с повече ленти. Ако отговорът е да, създайте трафик, за да отклоните всички автомобили от въпросното пътно платно. Дървото на решенията и връзката му с науката за данните е много важно.

Дървовидната структура на решенията може да се използва на много места в науката за данни. Въпреки че това е просто различен начин за оформяне на сложна вложена if структура, опростяването на оформлението може да помогне на много повече хора да разберат възможностите на областта на науката за данни. Ако трябваше да внедря това в собствения си живот, бих го искал за плана си за мобилен телефон. Имам неограничени данни с Verizon, но използвам само определено количество всеки месец, да речем 6GB или 8GB средно. Бих искал бот, който може да използва предишни данни, за да предвиди колко данни ще използвам за даден месец. Исторически излизам на почивка през месец юли. Склонен съм да използвам повече данни на почивка, тъй като хотелският Wi-Fi никога не е достатъчен. Бот може да използва дърво на решенията, за да определи, че използвам повече данни през месец юли, исторически погледнато, и съответно да промени моя план за данни. Ако има месец, в който съм склонен да използвам по-малко данни, да речем февруари, тъй като е по-кратък, ботът ще намали моето количество данни за месеца и ще бъда таксуван по-малко. Защо да плащате за неограничен интернет, когато някои месеци може да използвате само 4 GB? Би било много по-евтино да платя за 4 GB в сравнение с моя неограничен план. Услуга на IBM Watson, която може да е в състояние да ми помогне с това, е API на услугата за откриване. Ще трябва да мога да се докосна и до моя акаунт във Verizon, но бих могъл да имам програма, която извлича исторически данни от Verizon, зарежда ги в Watson Discovery и отговорът от Watson ще бъде какво да направя с моя план: увеличаване, намаляване , или останете същите.