Одной из первых задач машинного обучения на структурированных данных является «Разработка признаков». Это включает в себя принятие решения о том, следует ли рассматривать переменную как числовую переменную или категориальную переменную, а также выбор различных преобразований данных, таких как логарифмическое преобразование, горячее кодирование, целевое кодирование и т. д. Эти решения часто не являются простыми и требуют изучения данных для уникальные подсчеты, отсутствующие значения, распределение и т. д., а теперь представьте, что это делается для 10 или, что еще хуже, 100 столбцов. Очень быстро это может стать чрезвычайно повторяющейся и утомительной задачей.

Недавно я оказался в такой ситуации. Полуавтоматическое решение позаботилось о некоторых столбцах, но было еще много столбцов, для которых мне нужно решить, как с ними обращаться. Просмотрев несколько столбцов вручную, я понял, что процесс можно значительно упростить, используя библиотеку PigeonXT. Библиотека предназначена для создания помеченных точек данных в блокноте Jupyter и идеально подходит для этого случая. Прилагаемое видео демонстрирует результат. Видео проходит через различные столбцы набора данных о жилье в Айове. Для каждого столбца я смотрю на данный тип данных, количество уникальных значений и определяю, следует ли рассматривать переменную как числовую или категориальную.

Вы можете найти полный код по здесь. У меня есть пользовательская функция отображения (display_series), которая принимает серию панд в качестве входных данных и отображает ее различные аспекты. Затем в форме вы можете выбрать, следует ли рассматривать переменную как числовую или категориальную, а также выбрать тип преобразования, которое необходимо применить. Программа будет перебирать все столбцы и возвращать выборки для каждого столбца.

Первоначально опубликовано на http://ragrawal.wordpress.com 9 июля 2020 г.