В момента правя проучване за училищна задача. Имам два потока от данни, единият е потребителски оценки, а другият е хронология на търсене, кликвания и поръчки (двоични данни) на уеб магазин.
Открих, че съвместното филтриране е най-доброто семейство от алгоритми, ако използвате данни за оценка. Намерих и проучих тези алгоритми:
Базиран на паметта
базиран на потребителя
- pearson correlation
- ограничен Пиърсън
- векторни прилики (косинус)
- Средна квадратна разлика
- претеглен Pearson
- корелационен праг
- максимален брой съседи
- претеглени чрез корелация
- Нормализация на Z-резултат
базирани на артикули
- adjusted cosine
- максимален брой съседи
сливане на подобие
базиран на модел
- основана на регресия
- наклон едно
- lsi/svd
- регулиран svd (rsvd/rsvd2/nsvd2/svd++)
- базиран на интегриран съсед
- клъстерно изглаждане
Сега търся начин да използвам двоичните данни, но ми е трудно да разбера дали е възможно да използвам двоични данни вместо данни за оценка с тези алгоритми или има друго семейство алгоритми, които трябва да използвам гледам към ?
Извинявам се предварително за правописните грешки, тъй като имам дислексия и не съм роден писател. Благодаря marc_s за помощта.