Я пытался построить модель прогнозирования, используя данные пользователя. Ввод модели — это метаданные документов (дата публикации, название и т. д.), а метка документа — предпочтения этого пользователя (нравится/не нравится). Я хотел бы задать несколько вопросов, с которыми я столкнулся в надежде получить ответы:
- Любимых документов гораздо больше, чем нелюбимых. Я где-то читал, что если кто-то обучает модель, используя больше входных данных одной метки, чем другой, это плохо влияет на производительность (модель имеет тенденцию классифицировать все по метке/результату, которая имеет большинство входных данных
Возможно ли внести данные в алгоритм ML, например, логистическая регрессия может быть гибридной с точки зрения чисел и слов, и как это можно сделать, например:
ввод = [18,23,1,0,'криптография'] с меткой = ['Нравится']
Также можем ли мы использовать вектор (который представляет слово, используя tfidf и т. д.) в качестве входной функции (например, 50-мерный вектор)?
- Чтобы построить модель прогнозирования с использованием текстовых данных, единственный способ сделать это — получить словарь из каждого слова, упомянутого в наших документах, а затем создать двоичный ввод, который будет определять, упоминается термин или нет? Используя такую версию, мы теряем вес термина в коллекции, верно? Можем ли мы использовать что-то вроде вектора word2vec в качестве единого входа в модели контролируемого обучения?
Спасибо за ваше время.