Въведение

Какво искаме да правим?

Целта на науката за данните е да прави точни прогнози, които подпомагат процеса на вземане на решения, идентифицирайки ползите, рисковете и областите на подобрение или намаляване на усилията.

Въпреки че технологията се разширява и решава задачи от реалния живот, някои ученици тепърва ще прилагат машинно обучение в живота си по отношение на оценките. Като прилагат това в случая на употреба, университетите могат да определят представянето на своите студенти, като изследват области или предмети, които обикновено имат нисък резултат, в дългосрочен план им помага да бъдат по-организирани, подобрявайки вземането на решения и подобрявайки фокуса на студентите върху области това може да им създава трудности.

Този проект помага това да стане възможно. Етапите на тази методология са както следва:

  • Бизнес разбирателство
  • Изискване за данни
  • Разбиране на данните
  • Подготовка на данни
  • Моделиране
  • Оценка и внедряване

Бизнес разбирателство

Най-добрият университет не може да очаква да запази високото си уважение, ако коефициентът му на успех е твърде висок, тъй като това би предизвикало подозрения, а ако е твърде нисък, това става случай на високи стандарти за оценка или незначително разбиране на студентите.

Очевидно е, че представянето на студентите трябва да бъде един от най-големите приоритети на университета, тъй като това е грижа не само на университета, но и на настойниците на студентите и на самите студенти, тъй като тяхното представяне определя тяхното бъдеще. Следователно, ако резултатите са ниски, това в крайна сметка може да повлияе на репутацията на училището и цялостното му представяне като университет.

Следователно, като има случай на данни / анализ на данни, който позволява на университетите да наблюдават представянето, той подобрява ефикасността и ефикасността на лекциите, влияе върху вземането на решения при подбор на подходящи преподаватели, в резултат на което е от полза не само за студентите, но и за университета (прави маркетинг по-лесен за тях)

Изисквания за данни и придобиване

За да се предвиди правилно този случай на употреба, трябва да бъдат изпълнени определени изисквания, които биха довели до разбирането на данните. Данните, използвани в този случай на използване „StudentsPerformance.csv“, са получени от Kaggle. Таблицата има 649 реда и 33 колони. Следователно променливите, присъстващи в данните, са фактори, които са необходими за определяне на представянето на учениците и които евентуално биха могли да повлияят на това представяне, тези променливи са посочени по-долу:

  • Училище
  • Секс
  • Възраст
  • Адрес
  • Famsize — размер на семейството
  • Pstatus — Статус на съжителство на родителите
  • Меду — Образование на майките
  • Fedu — Бащино образование
  • Mjob — работа на майките
  • Fjob — работа на бащата
  • Причина — Причина за избора на училище
  • Пазител
  • Време за пътуване — времето, необходимо от вкъщи до училище
  • Време за обучение — седмично време за обучение
  • Неуспехи — брой минали неуспешни класове
  • Schoolsup — подкрепа за училище
  • Famsup — семейна поддръжка
  • Платени — допълнителни платени часове за курс
  • Дейности
  • Детска градина — посещавали ли сте детска градина?
  • Висше — посещавали ли сте висше образование?
  • Интернет — има достъп до стабилен интернет
  • Романтичен — участва в романтична връзка
  • Famrel — качество на семейните отношения
  • Свободно време — колко свободно време след училище
  • Подагра — честота на излизане с приятели
  • Dalc — консумация на алкохол през работните дни
  • Walc — консумация на алкохол през почивните дни
  • Здраве
  • Отсъствия — брой отсъствия от училище
  • G1 — първи семестър
  • G2 — втори семестър
  • G3 — общо

Разбиране на данните

За да мога да използвам тази таблица с данни, използвах тетрадка Jupyter, импортирах няколко библиотеки, които биха улеснили процеса на разбиране на набора от данни.

Целта на импортирането ни позволява да преобразуваме обекти в цели числа, да изпълняваме задачи за класификация и да измерваме точността на нашето очаквано прогнозиране. За да разбера и състоянието на данните, стартирах ‘data.info()’,което показва кои от променливите, споменати по-горе в Изисквания за данни и придобиване, са обекти и кои са цели числа. Изображение, което показва това, е приложено по-долу.

Подготовка на данните

Първата част към подготовката на набора от данни за машинното обучение за прогнозиране е проверка за липсващи стойности, като се гарантира, че няма нулеви стойности в набора от данни. За да проверите за липсващите стойности, се изпълнява кодовата функция '.isnull()', в този случай, когато има много променливи, '.isnull().sum() ' се изпълнява. Целта на ‘.sum()’ е да покаже всички променливи, включени в набора от данни. От данните по-долу може да се заключи, че в набора от данни няма липсващи/нулеви клетки.

След като бъде потвърдено, че данните са пълни, следващият етап ще бъде преобразуването на категорични данни (например обекти) в числови данни (цели числа), което е показано в диаграмата, спомената по-горе под разбиране на данни, където кодът 'data.info()' беше изпълнено. Причината за това преобразуване е, че машинното обучение не върви добре с категориални данни, то не вижда/разбира букви, освен ако не се използва процесор на естествен език. За да конвертирате обектите в цели числа, ‘LabelEncoder’ се изпълнява в Jupyter Notebook, което е показано на изображението по-долу.

И накрая, за да подготвя данните за желания изход, който беше извлечен от колона G3, създадох друга колона, наречена окончателна оценка, прилагайки праг за резултатите, за да се определи дали ученикът е преминал или не. Тъй като машинното обучение не може да разбере букви, използвах цифрови данни, за да разгранича между преминаване или неуспех, използвайки 1 като преминаване и 0 като неуспешно, което е представено на изображението по-долу.

Моделиране

Това включва разбиране на типа алгоритъм, използван като модел за прогнозиране на данните. В този случай използвах алгоритъма за логистична регресия. За да постигна модела, го импортирах от „sklearn.linear_model“

Защо?

  • най-вече защото исках двоичен резултат, който да служи като класификация, за да се определи дали учениците са преминали или не, което беше споменато по-горе като 1 за преминаване и 0 за неуспех.
  • По-подходящо е да се предвиди резултатът от зависима променлива въз основа на предишни наблюдения.
  • Той е най-добре адаптиран за решаване на проблеми с двоична класификация.

Оценка и внедряване

Етапът на оценка на изпълнението на прогнозата за машинно обучение определя дали то е готово за внедряване или не. Следователно, тъй като целта на случая на използване на данни е да се предскаже представянето на студентите за университетите, успехът на модела за машинно обучение се определя от точността, която той може да постигне.

Точността на прогнозата на машинното обучение беше до 89%. Използвайки матрица на объркване, ние сме в състояние да идентифицираме грешките между действителния резултат и прогнозата, въпреки че броят на стойностите за грешките е нисък, все още показва, че машинното обучение е предвидило, че повече хора са преминали, докато са се провалили, и това прогнозира, че хората, които действително са преминали, са се провалили. Изображението по-долу показва резултата от матрицата на объркването.

Диаграма на матрицата на объркването

Обяснявайки диаграмата по-горе, целта на диаграмата на матрицата на объркването е да опише ефективността на класификационен модел. Истински положителен в диаграмата означава, че броят на наблюденията, предвиден за преминалите ученици, е действителният резултат за преминалите ученици. Фалшивите положителни резултати представляват прогнозата на учениците, които са издържали, но всъщност са се провалили. Що се отнася до True Negative, това означава броят наблюдения, прогнозирани за ученици, които са се провалили и действително са се провалили. False Negative представлява прогнозата на учениците, които са се провалили, но всъщност са издържали.

Това означава, че ако университетите внедрят машинно обучение, те ще трябва да провеждат повече тестове, за да балансират точността или да имат резервно копие (алгоритъм/модел), за да гарантират точността, за да намалят шансовете за грешка. Като университет приетото ниво на точност би било 95%, ако машинното обучение е внедрено правилно. Това показва, че сме една стъпка по-близо до технологичните постижения.

Референции