Работа с несколькими категориальными входными данными и группами переменного размера в качестве входных данных для нейронной сети.

Я работаю с данными, состоящими из числовых и категориальных признаков, где каждый ввод состоит из группы признаков переменного размера. Например: спрогнозируйте цену дома, используя характеристики каждой комнаты в доме, и в каждом доме может быть разное количество комнат. Признаками могут быть размер в метрах, тип (например, гостиная/ванная/спальня), цвет, пол... Некоторые из категориальных признаков имеют большое количество элементов, и я могу использовать много признаков. Я бы хотел использовать функции из n комнат, чтобы предсказать цену каждого дома. Как бы я структурировал свою модель inputs/nn, чтобы получать группы входов переменного размера?

Я думал об использовании горячего кодирования, но тогда у меня будут большие входные векторы, и я потеряю связи между функциями для каждой комнаты. Я также думал об использовании вложений, но я не уверен, как лучше всего объединить функции/образцы, чтобы правильно ввести все данные, не теряя информации о том, какие функции взяты из каких образцов и т. д.


person Yoni Schwartz    schedule 30.07.2019    source источник


Ответы (1)


Как следует из статьи, ссылка на которую приведена ниже... у вас есть один из трех маршрутов на выбор.

  • Порядковое кодирование, которое, как мне кажется, не подходит для вашего примера.
  • Одно горячее кодирование, которое вы эффективно исключили.
  • Difference Encoding, что, я думаю, немного подходит, так как есть главные спальни, второстепенные, гостевые и детские. Итак, попробуйте этот угол.

Ссылка на красивую статью

Удачного кодирования :)

person Community    schedule 30.07.2019
comment
Спасибо, статья была очень познавательной. Мне все еще не ясно, как обрабатывать переменный размер группы для каждой выборки, есть ли у вас какие-либо мысли по этому поводу? - person Yoni Schwartz; 31.07.2019