В настоящее время я делаю некоторые исследования для школьного задания. У меня есть два потока данных: один - рейтинги пользователей, а другой - история поиска, кликов и заказов (двоичные данные) интернет-магазина.
Я обнаружил, что коллаборативная фильтрация — лучшее семейство алгоритмов, если вы используете рейтинговые данные. Я нашел и исследовал эти алгоритмы:
На основе памяти
пользовательский
- pearson correlation
- ограниченный Пирсон
- сходство векторов (косинус)
- Среднеквадратическая разница
- взвешенный Пирсон
- порог корреляции
- максимальное количество соседей
- взвешенный по корреляции
- Нормализация Z-оценки
на основе предметов
- adjusted cosine
- максимальное количество соседей
слияние подобия
модель на основе
- на основе регрессии
- склон один
- лси/свд
- регуляризованная свд (рсвд/рсвд2/нсвд2/свд++)
- интегрированный соседний
- кластерное сглаживание
Теперь я ищу способ использовать двоичные данные, но мне трудно понять, можно ли использовать двоичные данные вместо рейтинговых данных с этими алгоритмами или есть другое семейство алгоритмов, которые я должен использовать. смотря на ?
Заранее извиняюсь за орфографические ошибки, так как у меня дислексия, и я не являюсь носителем языка. Спасибо marc_s за помощь.