Добре, всъщностне прочетох толкова много. Имах доста солидна купчина четения всяка седмица, но 12 000 страници биха били като четене на цялата Библия два пъти дневно в продължение на една седмица (почивка на седмия ден).

Не мога да чета толкова бързо, но взех курс по компютърно-подпомогнат анализ на текст! Взехме напредъка в обработката на естествен език от компютърните науки и ги използвахме, за да анализираме политически документи. Чрез магията на алгоритмите,можем да вземем огромен брой документи и да определим емоцията, темите, авторството или сходството с други текстове. Използвахме Python и бях поразен от броя на мощните, безплатни инструменти за обработка на естествен език.

За последната си работа взех 40 години доклади от Световната банка (нещо като братовчед на ООН). Сравних тези текстове с всички техни финансови данни, за да видя дали влагат парите си на устните.

Използвах процес, наречен факторизация на неотрицателна матрица (NMF), за да групирам отчетите в теми. Ако си представите, че всички документи са картини, NMF работи, като иска от компютъра да пресъздаде снимките, като използва само определен брой пастели. Ако дадете на компютъра само три пастели, снимките се сравняват много лесно. (Например. Първите всички имат много червено, докато по-късните са смесица от синьо и жълто). Предоставянето на повече пастели на компютъра ви позволява да проследявате модели в повече цветове. Например, когато използвах 3 теми, компютърът постави здраве и образование като една тема. Когато му дадох повече цветове (теми), той ги проследи отделно.

След като направих това, трябваше да видя как всички тези модели в реториката се подреждат към действителните разходи по проекта. Взех думите, които най-вероятно ще бъдат намерени във всяка тема, и оцених съвпаденията на всяко описание на проекта. В крайна сметка получих модел, който можеше да вземе куп документи, да намери тема и след това да види колко пари са отишли ​​за проекти по тази тема. Четенето на отчетите от 12 000 страници всъщност отне на компютъра по-малко от минута. Написването на кода, за да го направи, отне цяла седмица (всъщност повече).

Затаих дъх през всичко това, несигурен дали ще постигна някакъв резултат. Но го направих! В първия си модел използвах три теми и открих доста тясна връзка и научих, че Банката е склонна да говори много за здраве и образование, но харчи повече пари за инфраструктура и управление. Моделът също така улавя голяма промяна около 2000 г. в кръговете за развитие от предписване само на „свободна търговия и растеж“ към наблягане на „управление и социални програми“. Можете да го видите на графиката по-долу:

Направих друг модел, който показа връзката между реториката и реалността за 16 теми (на снимката по-горе). Като цяло констатациите бяха незначителни, но направиха някои красиви графики! Успях да аргументирам няколко заключения, но ще трябва да прегледате „цялата статия“, за да разберете какво пропускате.

Това, което най-много ми хареса в този курс, беше да науча нещо изцяло ново и да го използвам, за да създам нещо. Това е мотивацията за тези публикации – в моите седмици извън училище, независимо дали за храна, изкуство, писане или забавление – се опитвам да създавам, а не просто да консумирам.