Я готовился к выпускному экзамену по машинному обучению, мне было интересно написать что-нибудь о типах данных, которые мы используем в машинном обучении.
По сути, данные изначально делятся на две основные области:
- Структурированные данные
Это тип, в котором данные представлены в табличном формате с четко определенными столбцами, например, набор данных для прогнозирования цены дома, у нас есть цены на дома с указанием их местоположения, размера, количества комнат в столбцах.
2) Неструктурированные данные
Он включает в себя изображения и текст. Он не имеет предопределенного формата. Такие данные в основном используются в глубоком обучении. Например, случайные слова в файле.
Далее данные классифицируются по основным типам:
- Числовые данные:
Это числа, их можно разделить на:
i.Discreet: различные/целые числа как 1,2,3,4
II. Непрерывный: точки данных между заданным диапазоном, например, баллы от 80,5 до 100.
2) Категориальные данные:
В основном это характеристика, например цвет, модель, форма автомобиля. Он также может принимать числовые данные только для того, чтобы связать их с качеством: 1 для красного и 2 для синего, как мы видим в кодировке меток. Мы не можем взять средние или добавить их. Этот тип также имеет еще два подразделения:
i.Порядковые данные:
Это числовые и категориальные данные, где данные ранжированы или упорядочены определенным образом, например, классы A*, A, B, C, D, каждый класс имеет значение и может сравниваться друг с другом.
II. Номинальные данные:
Эти данные не упорядочены и не ранжированы, например, такие цвета, как красный, зеленый и синий, имеют одинаковое значение.
3) Данные временного ряда:
Это последовательность чисел, которые записываются или собираются через равные промежутки времени. Например, данные о ценах на жилье за последние 10 лет.