Личный тест облачных сервисов анализа настроений

Чуть более года назад я был на мероприятии в Манчестерском университете, где обсуждалась тема «Искусственный интеллект в маркетинге». Вместо банальной болтовни «ИИ изменит все», которую можно увидеть в LinkedIn, презентация и последующие вопросы и ответы были сосредоточены на путях того, как мы фактически выйдем на новые конечные точки автоматизации с использованием ИИ и машинного обучения.

Довольно интересным предметом разговора была обработка естественного языка и анализ сантиментов. Мой предыдущий опыт работы с такими услугами, хотя и более 5 лет назад, был чрезвычайно разочаровывающим. Очевидно, многое изменилось; НЛП и анализ настроений являются ключевыми составляющими новой волны интерактивных агентов (ботов), которые сначала будут дополнять, а затем потенциально заменять услуги, населенные людьми, такие как контакт-центры. Очевидно, что технология пока никого не заменит, но увеличение сложности не является линейной функцией; скорее развитие ускоряется.

Как бы страшно это ни звучало, мое любопытство было возбуждено. Учитывая эти нововведения и то, что несколько различных облачных сервисов были запущены под известными именами, мы задались вопросом, существует ли (относительно) быстрый способ использовать эти сервисы в коммерческом приложении.

Мы написали полное руководство о том, как сервисы анализа настроений Amazon, Google и IBM сочетаются друг с другом, но гипотеза была довольно простой: можно ли их использовать в комбинации для получения лучших результатов?

Ответ в том, что в большинстве случаев они могут. В нашей выборке было 498 твитов, все из которых были предварительно отнесены к положительным, отрицательным или нейтральным по настроениям. Самая высокая категория из трех была положительной: 182 твита давали базовый уровень отсутствия информации (NIR) 37%. NIR - это число, которое нужно побить, чтобы оценить, предоставляют ли эти услуги какую-либо ценность.

Мы тестировали каждую службу независимо, а затем, если две службы соглашались, мы принимали решение большинством голосов. К счастью, так мало твитов были отнесены к категории нейтральных, что нам не пришлось убирать какие-либо трехсторонние связи.

Для этого набора данных (результаты могут сильно различаться для разных типов данных) каждая служба работала достаточно хорошо, но, как видно из диаграммы ниже, общая точность 5% была добавлена путем объединения служб.

Достаточно ли 73% для конкретного коммерческого приложения - это отдельный разговор. Но эти услуги будут только улучшаться, а цены довольно низкие. Поэтому использование в комбинации может быть лучшей стратегией, чем попытки настроить или обучить службы независимо.

Личный тест облачных сервисов анализа настроений

Похожие вопросы