Разгледайте предизвикателствата и критериите за оценка за разработване на система за класиране на емисии

Класиране на емисията на LinkedIn

Постановка на проблема

Създайте персонализирана емисия на LinkedIn, която има за цел да повиши устойчивото взаимодействие с потребителите. Въпреки че ангажираността може да бъде оценена чрез проследяване на честотата на активността на потребителите, този метод поставя предизвикателства в приложението в реалния свят. Като алтернатива, оценката на вероятността от кликвания или честотата на кликване (CTR) може да бъде по-осъществима.

В емисията на LinkedIn можем да идентифицираме пет основни типа дейности:

  • Работа в мрежа (напр. A се свързва с B)
  • Информативно съдържание
  • Потребителски профили
  • Лични мнения
  • Специфични за LinkedIn актуализации

Очевидно е, че всеки тип дейност има различен CTR. Разпознаването на тези разлики е от решаващо значение, когато става въпрос за разработване на модели и генериране на данни за обучение.

Дизайн и изисквания на показателите

Метрики — Офлайн показатели

За конкретна емисия честотата на кликване (CTR) се изчислява, като се раздели броят на кликванията, които емисията получава, на броя показвания.

За да оптимизираме CTR, можем да използваме подход за контролирана двоична класификация. За оценка на модела офлайн ние използваме нормализирани показатели за крос-ентропия и AUC.

Използването на нормализирана кръстосана ентропия (NCE) гарантира, че моделът не се влияе прекалено от базовата CTR.

Метрики — Онлайн показатели

Когато се работи с динамични данни, офлайн показателите обикновено не предоставят точна информация за ефективността. След като моделът бъде внедрен, онлайн показателите трябва да измерват ангажираността на потребителите, като например процента на реализация, който е съотношението на кликванията към броя на показаните емисии.

Изисквания

обучение

Управлението на огромни количества данни е от съществено значение по време на фазата на обучение. Оптимално тези модели се обучават в разпределени системи. В контекста на социалните мрежи често има несъответствие между онлайн разпространението на данни и офлайн разпространението на данни за обучение. За да смекчим това, можем постепенно да преквалифицираме моделите няколко пъти дневно.

  • Лично отношение: От решаващо значение е да се съобразите с индивидуалните предпочитания на потребителите, тъй като всеки има уникален начин да се ангажира с емисията си.
  • Разнообразие от съдържание: Важно е да се гарантира, че на потребителите не се представя повтарящо се съдържание в основната им емисия.

Извод

  • Мащабируемост: С огромна потребителска база, системата LinkedIn трябва да бъде оборудвана, за да управлява дейностите на 300 милиона потребители.
  • Закъснение: При достъп до LinkedIn множество канали и услуги извличат данни от различни източници, преди да насочат дейностите към модела за класиране. Тези процеси трябва да бъдат завършени за 200 ms, което изисква класирането на емисиите да реагира в рамките на 50 ms.
  • Уместност на съдържанието: Класирането на емисията трябва незабавно да идентифицира дали потребителят е гледал преди това конкретна дейност. Показването на повтарящо се съдържание може да намали потребителското изживяване, което подчертава необходимостта от бързи канали за данни.