Модели сейчас в моде, а почему бы и нет? Их приложения и возможности, кажется, удваиваются с каждым годом, набор инструментов продолжает расти, и вы не можете бросить камень, не прочитав 10 статей, написанных об их вариантах использования каждую неделю. Таким образом, клиенты неизбежно начнут просить все больше и больше моделей, поскольку слышат о них все. Наряду с этим появляется тенденция сначала просить модель и более глубокое изучение бизнес-вопроса, на который они пытаются ответить позже, когда должно быть наоборот. Понимание вопроса, на который пытается ответить клиент, является предварительным условием для выбора правильной модели для решения проблемы, но часто бывает недооценен подход к ответу на их бизнес-вопрос: не строить модель вообще.

Показательный пример: некоторое время назад я закончил доказательство концепции с моделями кластеризации k-средних, чтобы помочь клиенту лучше понять своих клиентов. У нас был следующий проект, в котором они хотели узнать больше информации о другом наборе клиентов, поэтому, естественно, они попросили другую модель k-средних. Я мог бы построить их именно так, как они просили, используя уже предоставленные ими параметры клиента, и это было бы именно то, что они просили, что обычно является критерием успеха любого результата. Однако, зондировав немного больше, чтобы узнать больше о вопросе, на который они пытались ответить, я понял, что ответ, который они искали, можно эффективно предоставить с помощью простого SQL-запроса и визуализации данных, что я настаивал как на лучшем. решение. Не всегда рекомендуется говорить клиенту, что то, о чем он явно просил, на самом деле не то, что он действительно хочет, но в случае с моделями я чаще стараюсь не давать им модель, если им не нужно один.

Модели великолепны, но они также невероятно громоздки в обслуживании. Им требуется кто-то с пониманием науки о данных для поддержки, их внутренние процессы настройки не интуитивно понятны, и если кто-то спросит об их методологии после вашего ухода, они не поддаются легким объяснениям. Иногда, когда их приложения преследуют очень четкую цель, например, прогнозирование количества, они могут стоить хлопот, особенно если они сравниваются с точностью и / или требуемыми трудозатратами какого-либо другого существующего процесса. Но для более абстрактных приложений, таких как кластеризация и сегментация клиентов, не сразу ясно, что их понимание превзойдет более простые статистические данные и методы. При прочих равных, почему бы вам не выбрать более простое решение?

Я понимаю, имея модель, можно почувствовать себя на переднем крае. Клиент доволен, что делает футуристические вещи, вы с радостью примените это обучение и возможности в области обработки данных, и каждый может поразиться тому, насколько умными они себя чувствуют. Но делать то, что правильно для всех, нужно не для того, чтобы люди чувствовали себя умными, а для выполнения работы с наименьшими краткосрочными и долгосрочными затратами. Нет недостатка в законных примерах использования более продвинутых методов науки о данных и моделирования, но худшая тенденция к падению - это стать молотком и рассматривать каждую проблему как гвоздь. Всегда делать то, что правильно для клиента, принимает множество форм, и иногда это предполагает признание того, что лучшая модель работы - это та, которую вы не строите.