Что такое кодирование меток?
Кодирование метки относится к преобразованию столбцов в числовые значения. Учитывая, что в наборе данных есть гораздо больше столбцов, но для понимания мы сосредоточимся только на одном столбце. Например: здесь укажите в категориальном столбце, чтобы понять алгоритм машинного обучения, мы выполним кодирование меток, чтобы преобразовать его в числовое значение.
Итак, для его реализации все, что нам нужно сделать, это:
- Импортируйте класс LabelEncoder из библиотеки sklearn.
- Подгонка и преобразование первого столбца данных
- Замена существующих текстовых данных новыми закодированными данными.
Что такое горячее кодирование?
Кодирование — это действие преобразования. Одно горячее кодирование преобразует категориальный набор данных в числовые данные путем разделения одного столбца на несколько столбцов.
Кодировщик меток используется, когда:
- Количество категорий довольно велико, так как горячее кодирование может привести к большому потреблению памяти.
- Когда порядок не имеет значения в категориальном признаке.
Один горячий энкодер используется, когда:
- Когда порядок не имеет значения в категориальных функциях
- Категорий в функции меньше.
Разница между кодировкой метки и горячим кодированием?
Ярлык EncodingOne-hot Encoding1. Категориальные значения помечаются числовыми значениями путем присвоения каждой категории номера1. Столбец с категориальными значениями разбивается на несколько столбцов.2. Различные столбцы не добавляются. Довольно разные категории преобразуются в числовые значения. Так меньше вычислений.2. Это добавит больше столбцов и потребует больших вычислительных ресурсов3. Есть уникальная информация3. Имеется избыточная информация4. Различные целые числа используются для представления данных4. Только 0 и 1 используются для представления данных