Машинное обучение в Amazon

Недавно я присутствовал на выступлении г-на Парта Гупты, инженера машинного обучения в Amazon. В основном речь шла о вариантах использования машинного обучения в Amazon. Доклад был довольно информативным, так как я посещал несколько курсов по машинному обучению и поиску информации. Этот пост является кратким изложением разговора.

Примеры использования машинного обучения @Amazon

  1. Рекомендация продукта:рекомендуйте нужный продукт нужному покупателю в нужном месте в нужное время. .
    Проблемы:
    Масштаб: у Amazon сотни миллионов пользователей. Каждому из них должны быть даны персональные рекомендации по продукту.
    Персонализация: предпочтения продукта могут сильно различаться у разных пользователей.
    В режиме реального времени: Рекомендации должны поступать в режиме реального времени. Для этого требуется низкая задержка.
    Холодный старт: это проблема любой рекомендательной системы. Как порекомендовать продукт новому пользователю (поскольку в рекомендациях обычно используются данные пользователей, прошедших просмотр на платформе). А также кому рекомендовать новые продукты, которые добавляются на платформу.
  2. Спрос на продукт и прогнозирование. Учитывая прошлые продажи продукта в каждом регионе, спрогнозируйте региональный спрос на год вперед.
    Это важно для Amazon, потому что часто они делают запасы в некоторых центрах исполнения заказов
    Задачи:
    Масштаб: 20+ миллионов продуктов, реализованных только Amazon.
    Новый продукт: если на платформу добавляется новый продукт, как предсказать спрос на него, поскольку у нас нет данных о продажах за прошлые периоды. .
     – Сезонность. Спрос на многие товары зависит от сезона. Как это смоделировать?!
     – Всплески спроса. Внешние события могут вызвать всплески спроса, которые не могут быть напрямую смоделированы на основе предыдущих данных о продажах.
     – Регионально: Поскольку спрос в разных регионах мира сильно различается, как включить эти различия в модель.
  3. Классификация товаров. Получив описание товара от продавца, сопоставьте его с соответствующей категорией товара. Amazon поддерживает категорию продуктов, структурированную в виде дерева, и конечные категории, лежащие в одном из конечных узлов.
    Проблемы:
    Масштаб: количество категорий продуктов велико, более 1000. Классифицировать вещи по этим многочисленным категориям будет непростой задачей.
    Нечеткие определения классов. Часто категории продуктов нечеткие, потому что такова природа продуктов.
    Многоуровневые и мультиклассовые: товары могут принадлежать более чем к одной категории.
    Неверные/отсутствующие данные: в описании товара могут отсутствовать некоторые значения (например, заголовок). Как с этим справиться.
    Продукт и аксессуары: Часто бывает трудно отличить описание продукта от некоторых его аксессуаров.
    Качество обучающих данных : обучающие данные могут быть плохо помечены, или часто в обучающих данных для определенной категории содержится мало продуктов.
  4. Сопоставление товаров.По информации о товарах найдите повторяющиеся списки товаров в категории Amazon.
    Проблемы:
    Масштаб: каталог Amazon содержит более 100 миллионов товаров. Поиск дубликатов среди этих списков будет сложной задачей.
    Требование высокой точности: очень важно, чтобы в списках были указаны только те жетовары. Если не возникнет чертовски много проблем, клиент для начала получит не тот товар.
    Неправильные/отсутствующие данные. Опять же, в некоторых описаниях могут отсутствовать входные данные. Об этом должна позаботиться модель.
    Вариации. Товары могут незначительно отличаться, и их следует перечислять отдельно. Модель должна быть в состоянии позаботиться об этих небольших вариациях.
  5. Поиск продукта. Это, вероятно, самая важная задача машинного обучения в Amazon. С учетом частичного запроса найдите нужный продукт для нужного клиента в нужном месте в нужное время. Это утверждение суммирует любую задачу поиска информации.
  6. Вероятность клика по объявлению. Прогнозируйте эффективность (коэффициент кликов, коэффициент конверсии) объявления.
    Проблемы:
    Разреженность обучающих данных: Клики по рекламе случаются очень редко (Сколько раз вы нажимаете на рекламу на любой веб-странице?!). Следовательно, данные обучения будут несбалансированы в сторону отсутствия кликов.
    Задержка: объявления размещаются в соответствии с их релевантностью, а также с учетом ставок в реальном времени. Следовательно, прогноз нужно делать каждый раз за очень короткое время.
    Исследуйте и применяйте: здесь следует использовать популярную парадигму обучения с подкреплением, поскольку креативы динамически меняются, а клиент интересы постоянно меняются.
  7. Извлечение информации из отзывов.Извлечение атрибутов продукта и рейтинга из отзывов.
    Проблемы:
    — Разнообразие атрибутов продукта: Поскольку продукты разнообразны, атрибуты.
    Неофициальный стиль комментариев: Часто комментарии написаны в неформальном стиле, что затрудняет использование традиционных методов IR
    Короткий текст: многие комментарии очень короткие, и извлечение полезной информации может быть затруднено.
  8. Визуальный поиск:распознавание товаров на изображении и сопоставление их с каталогом Amazon
    Задачи:
    Определение товара на изображении:изображение для поиск будет любого вида, и обнаружение конкретного продукта на этом изображении будет сложной задачей.
    — Большое разнообразие продуктов в категории Amazon.
    Просматривать каталог Amazon, содержащий миллионы изображений, также непросто.
  9. Распознавание речи.При наличии Alexa это основной вариант использования Amazon.
    Проблемы:
    Распознавание в реальном времени: речь должен быть распознан и отреагирован на лету.
    Неограниченная среда: необходимо справиться с фоновым шумом
    Адаптация динамика: адаптировать и задействовать конкретно для текущего пользователя.
    независимо от говорящего: универсальность для новых пользователей
    Коэффициент ошибок в словах: необходимо чтобы уменьшить количество ошибок, допущенных при распознавании, потому что это влияет на пользовательский опыт
  10. Рейтинг сделок:ранжируйте предложения, чтобы максимизировать релевантность или доход
    — Персонализация:
    персонализированные предложения, которые будут предлагаться пользователям в соответствии с их прошлыми покупательскими привычками.
    — Кратковременность:
    Сделки действуют в течение короткого времени. Оптимизация должна быть сделана с учетом этого.
  11. Вопросы и ответы:Отвечайте на вопросы пользователей в любом контексте — Echo, Mobile, Desktop, Apps и т. д.
    Сложность и вариативность вопросов:Открытые вопросы
    — Источник информации:
    Важно выбрать правильный источник информации, чтобы отвечать на запросы пользователей, особенно в эпоху фейковых новостей!
    — Высокая точность и полнота: < br /> — Вариативность контента, созданного клиентами.
    Ответы будут отличаться от клиентов к клиентам в зависимости от их истории, покупательских привычек, списков желаний, напоминаний и т. д.