Я готовился к выпускному экзамену по машинному обучению, мне было интересно написать что-нибудь о типах данных, которые мы используем в машинном обучении.

По сути, данные изначально делятся на две основные области:

  1. Структурированные данные

Это тип, в котором данные представлены в табличном формате с четко определенными столбцами, например, набор данных для прогнозирования цены дома, у нас есть цены на дома с указанием их местоположения, размера, количества комнат в столбцах.

2) Неструктурированные данные

Он включает в себя изображения и текст. Он не имеет предопределенного формата. Такие данные в основном используются в глубоком обучении. Например, случайные слова в файле.

Далее данные классифицируются по основным типам:

  1. Числовые данные:

Это числа, их можно разделить на:

i.Discreet: различные/целые числа как 1,2,3,4

II. Непрерывный: точки данных между заданным диапазоном, например, баллы от 80,5 до 100.

2) Категориальные данные:

В основном это характеристика, например цвет, модель, форма автомобиля. Он также может принимать числовые данные только для того, чтобы связать их с качеством: 1 для красного и 2 для синего, как мы видим в кодировке меток. Мы не можем взять средние или добавить их. Этот тип также имеет еще два подразделения:

i.Порядковые данные:

Это числовые и категориальные данные, где данные ранжированы или упорядочены определенным образом, например, классы A*, A, B, C, D, каждый класс имеет значение и может сравниваться друг с другом.

II. Номинальные данные:

Эти данные не упорядочены и не ранжированы, например, такие цвета, как красный, зеленый и синий, имеют одинаковое значение.

3) Данные временного ряда:

Это последовательность чисел, которые записываются или собираются через равные промежутки времени. Например, данные о ценах на жилье за ​​последние 10 лет.