Опитвам се да създам модел за прогнозиране, използвайки данни на потребител. Входът на модела е метаданните на документите (дата на публикуване, заглавие и т.н.), а етикетът на документа е предпочитанието на потребителя (харесва ми/не харесва). Бих искал да задам няколко въпроса, на които се натъкнах с надеждата да получа отговор:
- Има много повече харесвани документи, отколкото нехаресвани. Четох някъде, че ако някой обучи модел, използващ много повече входни данни от единия етикет, отколкото от другия, това се отразява на производителността по лош начин (моделът има тенденция да класифицира всичко към етикета/резултата, който има повечето входни данни
Възможно ли е да има вход към алгоритъм за ML, например логистичната регресия да бъде хибридна по отношение на числа и думи и как това може да се направи, нещо като:
вход = [18,23,1,0,'cryptography'] с етикет = ['Like']
Също така можем ли да използваме вектор (който представлява дума, използвайки tfidf и т.н.) като входна характеристика (напр. 50-измерен вектор)?
- За да се изгради модел за прогнозиране с помощта на текстови данни, единственият начин да направите това е чрез извличане на речник от всяка дума, спомената в нашите документи и след това конструиране на двоичен вход, който ще диктува дали даден термин е споменат или не? Въпреки че използваме такава версия, губим тежестта на термина в колекцията, нали? Можем ли да използваме нещо като word2vec вектор като единичен вход в модел на контролирано обучение?
Благодаря ви за отделеното време.