Введение

Что мы хотим сделать?

Цель науки о данных состоит в том, чтобы делать точные прогнозы, которые помогают процессу принятия решений, выявляя выгоды, риски и области улучшения или уменьшения усилий.

Хотя технологии расширяются и решают реальные жизненные задачи, некоторым учащимся еще предстоит применить машинное обучение в своей жизни с точки зрения оценок. Применяя это в сценарии использования, университеты могут определять успеваемость своих студентов, тщательно изучая области или предметы, которые обычно имеют низкие результаты, в конечном итоге помогая им быть более организованными, улучшая процесс принятия решений и улучшая внимание студентов к областям. это может вызвать у них затруднения.

Этот проект помогает сделать это возможным. Этапы этой методики следующие:

  • Понимание бизнеса
  • Требования к данным
  • Понимание данных
  • Подготовка данных
  • Моделирование
  • Оценка и развертывание

Понимание бизнеса

Ведущий университет не может рассчитывать на сохранение своего высокого авторитета, если его коэффициент успешности слишком высок, так как это вызовет подозрение, а если он слишком низок, это становится случаем высоких стандартов оценок или пренебрежительного отношения к пониманию студентов.

Очевидно, что успеваемость студентов должна быть одним из самых больших приоритетов университета, поскольку это забота не только университета, но и опекунов студентов и самих студентов, поскольку от их успеваемости зависит их будущее. Следовательно, если показатели низкие, это может в конечном итоге повлиять на репутацию школы и ее общую эффективность как университета.

Таким образом, наличие базы данных/анализа данных, которая позволяет университетам отслеживать успеваемость, повышает эффективность и действенность лекций, влияет на принятие решений при отборе подходящих лекторов, в результате принося пользу не только студентам, но и университету (делает маркетинг им проще)

Требования к данным и получение

Чтобы правильно предсказать этот вариант использования, необходимо выполнить определенные требования, которые привели бы к пониманию данных. Данные, использованные в этом примере использования «StudentPerformance.csv», были получены из Kaggle. В таблице 649 строк и 33 столбца. Поэтому переменные, присутствующие в данных, являются факторами, которые необходимы для определения успеваемости учащихся и которые могут повлиять на эту успеваемость. Эти переменные указаны ниже:

  • Школа
  • Секс
  • Возраст
  • Адрес
  • Famsize — размер семьи
  • Pstatus — Статус совместного проживания родителей
  • Medu — обучение матерей
  • Феду — образование для отцов
  • Mjob — работа матери
  • Fjob — Отец Иов
  • Причина — Причина выбора школы
  • Хранитель
  • Время в пути — время от дома до школы
  • Учебное время — еженедельное учебное время
  • Ошибки — количество прошлых неудачных занятий
  • Schoolsup — школьная поддержка
  • Famsup — семейная поддержка
  • Платные — дополнительные платные занятия к курсу
  • Действия
  • Детский сад — посещали детский сад?
  • Высшее — посещали высшие учебные заведения?
  • Интернет — есть доступ к стабильному интернету
  • Романтика — состоит в романтических отношениях
  • Famrel — качество семейных отношений
  • Свободное время — сколько свободного времени после школы
  • Подагра — частота встреч с друзьями
  • Dalc — потребление алкоголя в рабочие дни
  • Walc — употребление алкоголя в выходные
  • Здоровье
  • Отсутствия — количество пропусков занятий
  • G1 — первый семестр
  • G2 — второй семестр
  • G3 — полностью

Понимание данных

Чтобы иметь возможность использовать эту таблицу данных, я использовал блокнот Jupyter, импортировал несколько библиотек, которые облегчили бы процесс понимания набора данных.

Цель импорта позволяет нам преобразовывать объекты в целые числа, выполнять задачи классификации и измерять точность нашего ожидаемого прогноза. Чтобы также понять состояние данных, я запустил 'data.info()', который показывает, какие из переменных, упомянутых выше в разделе Требования к данным и получение, являются объектами, а какие — целыми числами. Изображение, которое показывает это, прикреплено ниже.

Подготовка данных

Первая часть подготовки набора данных для прогнозирования с помощью машинного обучения — это проверка пропущенных значений, чтобы убедиться, что в наборе данных нет нулевых значений. Для проверки пропущенных значений запускается кодовая функция '.isnull()', в данном случае, когда переменных много, '.isnull().sum() ' выполняется. Целью ‘.sum()’ является отображение всех переменных, участвующих в наборе данных. Из приведенных ниже данных можно сделать вывод, что в наборе данных нет отсутствующих/нулевых ячеек.

После подтверждения полноты данных следующим этапом будет преобразование категорийных данных (например, объектов) в числовые данные (целые числа), что показано на диаграмме, упомянутой выше в разделе «Понимание данных», где код 'data.info()' был запущен. Причина этого преобразования заключается в том, что машинное обучение плохо работает с категориальными данными, оно не видит/понимает буквы, если только не используется процессор естественного языка. Чтобы преобразовать объекты в целые числа, в блокноте Jupyter запускается LabelEncoder, как показано на изображении ниже.

Наконец, чтобы подготовить данные для желаемого вывода, который был получен из столбца G3, я создал еще один столбец, называемый итоговой оценкой, реализуя пороговое значение для оценок, чтобы определить, сдал ли учащийся. Поскольку машинное обучение не может понимать буквы, я использовал числовые данные, чтобы различать успешно или неудачно, используя 1 как успешное и 0 как неудачное, что представлено на изображении ниже.

Моделирование

Это включает в себя понимание типа алгоритма, используемого в качестве модели для прогнозирования данных. В этом случае я использовал алгоритм логистической регрессии. Чтобы получить модель, я импортировал ее из «sklearn.linear_model».

Почему?

  • в основном потому, что я хотел получить двоичный результат, который служил бы классификацией для определения того, сдали ученики или нет, что было упомянуто выше как 1 для сдачи и 0 для не сдачи.
  • Лучше прогнозировать результат зависимой переменной на основе предыдущих наблюдений.
  • Лучше всего он приспособлен для решения задач бинарной классификации.

Оценка и развертывание

Этап оценки производительности прогнозирования машинного обучения определяет, готово ли оно к развертыванию. Следовательно, поскольку целью варианта использования данных является прогнозирование успеваемости студентов в университетах, успех модели машинного обучения определяется точностью, которую она способна достичь.

Точность предсказания машинного обучения составила до 89%. Используя матрицу путаницы, мы можем идентифицировать ошибки между фактическим результатом и прогнозом, хотя количество значений для ошибок было низким, оно по-прежнему показывало, что машинное обучение предсказывало, что больше людей прошло, а они потерпели неудачу, и это предсказал, что люди, которые действительно прошли, потерпели неудачу. На изображении ниже показан результат матрицы путаницы.

Диаграмма матрицы путаницы

Объясняя приведенную выше диаграмму, цель диаграммы матрицы путаницы состоит в том, чтобы описать производительность модели классификации. Истинный положительный результат на диаграмме означает, что количество наблюдений, предсказанных для сдавших экзамен учащихся, является фактическим результатом для сдавших экзамены учащихся. Ложноположительные результаты представляют собой предсказания сдавших экзамены студентов, которые на самом деле не сдали экзамен. Что касается True Negative, то это означает количество наблюдений, предсказанных для учащихся, которые провалились и действительно провалились. Ложноотрицательный результат представляет собой прогноз студентов, которые не сдали экзамен, но фактически сдали экзамен.

Это означает, что если бы университеты внедрили машинное обучение, им пришлось бы проводить больше тестов, чтобы сбалансировать точность, или иметь резервную копию (алгоритм/модель), чтобы гарантировать точность и снизить вероятность ошибки. Для университета приемлемый уровень точности будет 95%, если машинное обучение развернуто должным образом. Это показывает, что мы на шаг ближе к технологическим достижениям.

Ссылки