Машинное обучение в Amazon
Недавно я присутствовал на выступлении г-на Парта Гупты, инженера машинного обучения в Amazon. В основном речь шла о вариантах использования машинного обучения в Amazon. Доклад был довольно информативным, так как я посещал несколько курсов по машинному обучению и поиску информации. Этот пост является кратким изложением разговора.
Примеры использования машинного обучения @Amazon
- Рекомендация продукта:рекомендуйте нужный продукт нужному покупателю в нужном месте в нужное время. .
Проблемы:
— Масштаб: у Amazon сотни миллионов пользователей. Каждому из них должны быть даны персональные рекомендации по продукту.
— Персонализация: предпочтения продукта могут сильно различаться у разных пользователей.
— В режиме реального времени: Рекомендации должны поступать в режиме реального времени. Для этого требуется низкая задержка.
— Холодный старт: это проблема любой рекомендательной системы. Как порекомендовать продукт новому пользователю (поскольку в рекомендациях обычно используются данные пользователей, прошедших просмотр на платформе). А также кому рекомендовать новые продукты, которые добавляются на платформу. - Спрос на продукт и прогнозирование. Учитывая прошлые продажи продукта в каждом регионе, спрогнозируйте региональный спрос на год вперед.
Это важно для Amazon, потому что часто они делают запасы в некоторых центрах исполнения заказов
Задачи:
— Масштаб: 20+ миллионов продуктов, реализованных только Amazon.
— Новый продукт: если на платформу добавляется новый продукт, как предсказать спрос на него, поскольку у нас нет данных о продажах за прошлые периоды. .
– Сезонность. Спрос на многие товары зависит от сезона. Как это смоделировать?!
– Всплески спроса. Внешние события могут вызвать всплески спроса, которые не могут быть напрямую смоделированы на основе предыдущих данных о продажах.
– Регионально: Поскольку спрос в разных регионах мира сильно различается, как включить эти различия в модель. - Классификация товаров. Получив описание товара от продавца, сопоставьте его с соответствующей категорией товара. Amazon поддерживает категорию продуктов, структурированную в виде дерева, и конечные категории, лежащие в одном из конечных узлов.
Проблемы:
— Масштаб: количество категорий продуктов велико, более 1000. Классифицировать вещи по этим многочисленным категориям будет непростой задачей.
— Нечеткие определения классов. Часто категории продуктов нечеткие, потому что такова природа продуктов.
— Многоуровневые и мультиклассовые: товары могут принадлежать более чем к одной категории.
— Неверные/отсутствующие данные: в описании товара могут отсутствовать некоторые значения (например, заголовок). Как с этим справиться.
— Продукт и аксессуары: Часто бывает трудно отличить описание продукта от некоторых его аксессуаров.
— Качество обучающих данных : обучающие данные могут быть плохо помечены, или часто в обучающих данных для определенной категории содержится мало продуктов. - Сопоставление товаров.По информации о товарах найдите повторяющиеся списки товаров в категории Amazon.
Проблемы:
— Масштаб: каталог Amazon содержит более 100 миллионов товаров. Поиск дубликатов среди этих списков будет сложной задачей.
— Требование высокой точности: очень важно, чтобы в списках были указаны только те жетовары. Если не возникнет чертовски много проблем, клиент для начала получит не тот товар.
— Неправильные/отсутствующие данные. Опять же, в некоторых описаниях могут отсутствовать входные данные. Об этом должна позаботиться модель.
— Вариации. Товары могут незначительно отличаться, и их следует перечислять отдельно. Модель должна быть в состоянии позаботиться об этих небольших вариациях. - Поиск продукта. Это, вероятно, самая важная задача машинного обучения в Amazon. С учетом частичного запроса найдите нужный продукт для нужного клиента в нужном месте в нужное время. Это утверждение суммирует любую задачу поиска информации.
- Вероятность клика по объявлению. Прогнозируйте эффективность (коэффициент кликов, коэффициент конверсии) объявления.
Проблемы:
— Разреженность обучающих данных: Клики по рекламе случаются очень редко (Сколько раз вы нажимаете на рекламу на любой веб-странице?!). Следовательно, данные обучения будут несбалансированы в сторону отсутствия кликов.
— Задержка: объявления размещаются в соответствии с их релевантностью, а также с учетом ставок в реальном времени. Следовательно, прогноз нужно делать каждый раз за очень короткое время.
— Исследуйте и применяйте: здесь следует использовать популярную парадигму обучения с подкреплением, поскольку креативы динамически меняются, а клиент интересы постоянно меняются. - Извлечение информации из отзывов.Извлечение атрибутов продукта и рейтинга из отзывов.
Проблемы:
— Разнообразие атрибутов продукта: Поскольку продукты разнообразны, атрибуты.
—Неофициальный стиль комментариев: Часто комментарии написаны в неформальном стиле, что затрудняет использование традиционных методов IR
— Короткий текст: многие комментарии очень короткие, и извлечение полезной информации может быть затруднено. - Визуальный поиск:распознавание товаров на изображении и сопоставление их с каталогом Amazon
Задачи:
— Определение товара на изображении:изображение для поиск будет любого вида, и обнаружение конкретного продукта на этом изображении будет сложной задачей.
— Большое разнообразие продуктов в категории Amazon. Просматривать каталог Amazon, содержащий миллионы изображений, также непросто. - Распознавание речи.При наличии Alexa это основной вариант использования Amazon.
Проблемы:
— Распознавание в реальном времени: речь должен быть распознан и отреагирован на лету.
— Неограниченная среда: необходимо справиться с фоновым шумом
— Адаптация динамика: адаптировать и задействовать конкретно для текущего пользователя.
— независимо от говорящего: универсальность для новых пользователей
— Коэффициент ошибок в словах: необходимо чтобы уменьшить количество ошибок, допущенных при распознавании, потому что это влияет на пользовательский опыт - Рейтинг сделок:ранжируйте предложения, чтобы максимизировать релевантность или доход
— Персонализация:персонализированные предложения, которые будут предлагаться пользователям в соответствии с их прошлыми покупательскими привычками.
— Кратковременность:Сделки действуют в течение короткого времени. Оптимизация должна быть сделана с учетом этого. - Вопросы и ответы:Отвечайте на вопросы пользователей в любом контексте — Echo, Mobile, Desktop, Apps и т. д.
— Сложность и вариативность вопросов:Открытые вопросы
— Источник информации: Важно выбрать правильный источник информации, чтобы отвечать на запросы пользователей, особенно в эпоху фейковых новостей!
— Высокая точность и полнота: < br /> — Вариативность контента, созданного клиентами. Ответы будут отличаться от клиентов к клиентам в зависимости от их истории, покупательских привычек, списков желаний, напоминаний и т. д.