Мы пытаемся найти сходство между элементами (и более поздними пользователями), где элементы ранжируются пользователями в различных списках (вспомните Роба, Барри и Дика в Высокая точность). Более низкий индекс в данном списке подразумевает более высокий рейтинг.
Я полагаю, что стандартным подходом было бы использование корреляции Пирсона, а затем каким-то образом инвертировать индексы.
Однако, насколько я понимаю, цель корреляции Пирсона состоит в том, чтобы компенсировать различия между пользователями, которые обычно оценивают вещи выше или ниже, но имеют одинаковые относительные оценки.
Мне кажется, что если списки непрерывны (хотя и произвольной длины), то не проблема, что рейтинги, вытекающие из позиции, будут таким образом перекошены.
Я полагаю, что в этом случае евклидово подобие было бы достаточным. Так ли это? Будет ли использование корреляции Пирсона иметь отрицательный эффект и найти корреляцию, которая не подходит? Какая мера сходства лучше всего подходит для этих данных?
Кроме того, хотя мы хотим, чтобы положение в списке имело эффект, мы не хотим наказывать рейтинги, которые слишком далеко друг от друга. Два пользователя, у которых есть элемент в списке с очень разным рейтингом, все равно должны считаться похожими.