Оглавление :

  1. Основы введения и рекомендаций
  2. Оценка рекомендательных систем
  3. Рекомендации по содержанию
  4. Коллаборативная фильтрация по соседству
  5. Совместная фильтрация на основе пользователей и элементов
  6. Рекомендации КНН
  7. Матричная факторизация
  8. Глубокое обучение — Введение
  9. Ограниченные машины Больцмана
  10. АвтоРекс
  11. Amazon DSSTNE и Sage Maker
  12. Реальные вызовы и решения

Рекомендации на основе содержания — самый простой из всех подходов. Основная идея состоит в том, чтобы рекомендовать, основываясь на свойствах элементов, а не на совокупном поведении пользователей.
Например, если Бобу нравятся боевики; рекомендация Бобу фильмов того же жанра боевика называется рекомендацией, основанной на содержании.

Метрика сходства косинуса

Как мы узнаем, что два фильма имеют одинаковое содержание?

Мы можем узнать, насколько похожи два элемента, с помощью таких показателей, как показатели косинусного сходства.

  • Метрика косинусного сходства идеально подходит для рекомендаций на основе контента.
  • Он используется для поиска сходства любой заданной пары фильмов.

Давайте разберемся, как работает косинусное сходство. Мы можем представить матрицу жанра фильма в двумерном пространстве, как показано ниже. Ось X представляет дискретное значение атрибута комедии, а ось Y представляет атрибут приключения. Мы ставим дискретное значение «1» для атрибута комедии, если фильм полон комедии, и «0», если фильм не такой уж смешной; То же самое делается с атрибутом приключений. Мы можем представить каждый фильм вместе с жанром в двухмерном пространстве, как показано ниже. Эту матрицу можно использовать, чтобы определить, насколько похожи фильмы.

Здесь мы замечаем, что формула, используемая для подобия косинусов, является хорошим началом, но найти углы на основе имеющихся у нас данных сложно.

Мы можем решить эту проблему с тем же подходом, но совершенно по другой формуле! Вместо этого можно использовать приведенную ниже формулу.

Следует отметить, что с увеличением числа факторов, в зависимости от которых мы вычисляем сходство, размеры нашей матрицы увеличиваются или уменьшаются.

Косинусное сходство может быть реализовано в жанре очень легко. Фрагмент кода ниже делает то же самое.

Также доступны другие методы (или показатели), которые мы подробно обсудим в следующих разделах. Некоторые из них -

  • Евклидово расстояние: измеряет фактическое расстояние.
  • Корреляция Пирсона: аналогична метрике косинуса, но используются средние значения.

Сходства только по годам выпуска?

Примечание. Вы можете немного поработать со строками и получить «годы» из набора данных, чтобы рекомендовать их с его помощью.

Выполнение этого трюка можно назвать одним из искусств проектирования рекомендательных систем. Все зависит от характера данных, которые у вас есть. Мы снова должны решить, насколько два фильма должны существенно различаться?
Выбрали математическую функцию, которая плавно масштабирует временную шкалу в диапазоне от нуля до единицы и реализует ее в коде. Здесь экспоненциальная функция делает свое дело.

Ниже показан код реализации Python для рекомендаций на основе годов выпуска.

Примечание. Протестируйте как можно больше функций, чтобы получить наилучшие рекомендации.

КАК ПРЕВРАТИТЬ ЭТИ СХОДСТВА (Жанр, Время) МЕЖДУ ФИЛЬМАМИ НА ОСНОВЕ ИХ АТРИБУТОВ В
РЕАЛЬНЫЕ ПРОГНОЗЫ О РЕЙТИНГАХ?

Мы должны помнить, что у наших алгоритмов рекомендаций в удивлении есть только ОДНА задача — предсказать рейтинг для данного пользователя для данного фильма.

K ближайших соседей[KNN] Алгоритм:Причудливое название для простой идеи. Это выбор N вещей, близких к интересующим вас вещам.

  • Шаг 1. Найдите показатели сходства между фильмом и всеми фильмами, которые оценил пользователь.
  • Шаг 2. Отсортируйте и выберите 40 ближайших соседей фильма.
  • Шаг 3. Возьмите средневзвешенное значение и спрогнозируйте оценки

Примечание.Для рекомендаций Top N важен относительный порядок прогнозируемых оценок. Не предсказал сам Рейтинг. Если вы действительно стремитесь к точной настройке точности прогнозирования, есть способы нормализовать наши прогнозируемые рейтинги, чтобы получить их в желаемом диапазоне. Например, нормализация логарифмического квантиля помогает
. НО В РЕАЛЬНОМ МИРЕ НИКОМУ НЕ НУЖНО. ЗАБОТИТСЯ ТОЛЬКО TOP-N!!!

мизансцена (в стадии исследования)

Основная идея этого алгоритма заключается в извлечении свойств из самой пленки, которые затем количественно оцениваются и анализируются для получения рекомендаций.

  • Не способствует точности, но увеличивает разнообразие
  • Повышенное разнообразие также может привести к случайным рекомендациям.

СОВЕТЫ ПО СОЗДАНИЮ ЛУЧШИХ МОДЕЛЕЙ

  • Используйте рейтинги популярности в качестве тай-брейка
  • Используйте «Год выпуска»
  • Пробуйте новые идеи!
  • Всегда тестируйте с помощью онлайн-тестов A/B!

"СЛЕДУЮЩИЙ>>>"