Это не то, что ты делаешь, это то, как ты это делаешь.

В последнее время я много думал о том, насколько полезны данные о выхлопных газах, и хотел поделиться некоторыми мыслями. Ниже я изложил, что такое выхлопные данные, несколько примеров того, как они могут добавить огромную ценность, и некоторые практические предложения для специалистов по данным о том, для чего их использовать.

Выхлопные данные

Что такое выхлопные данные и почему меня это должно волновать?

У каждой компании, имеющей какой-либо вид онлайн-присутствия, данные о выхлопных газах будут где-то захламлять свои хранилища данных. Исчерпывающие данные - это данные, которые являются побочным продуктом действий пользователей. Он не включает «первичные» или «основные» данные, такие как сохраненные данные для входа пользователя или его историю транзакций, но включает все данные, которые создаются как побочный эффект того, как пользователь взаимодействует с вашим цифровым продуктом.

Например, раньше я работал специалистом по данным в транспортном приложении Citymapper. Вы можете использовать приложение, чтобы получить маршруты общественного транспорта, и вы можете использовать продукт для продажи билетов по подписке под названием Pass для оплаты поездок. Допустим, вы хотели отправиться из дома в свой любимый пиццерию и коктейль-бар на тему коммунистического диктатора (конечно, до Covid). Вы открываете приложение, вводите адрес, просматриваете некоторые варианты транспорта, выбираете один, следуете инструкциям и используете свой проездной для оплаты проезда. Данные о транзакции будут записаны и будут считаться основными данными, поскольку платные транзакции являются ключевыми для бизнес-функции.

Журналы событий всех других действий, которые вы делали в приложении, также будут записаны, включая то, какой начальный и конечный адрес вы ввели, какие варианты вам были показаны, какие опции вы щелкнули, какой был последний вариант, который вы выбрали; и если вы использовали пошаговое руководство по маршруту («режим Go»), ваше местоположение также будет записываться каждые 10 секунд. Все это исчерпывающие данные. Точно так же исчерпывающие данные на сайте электронной коммерции будут включать данные о потоках кликов, включая каждый продукт, на который вы нажали, как долго вы оставались на каждой странице, какие разделы каждой страницы вы просматривали и какие действия вы предприняли.

Выхлопные данные большие. Действительно большой. К нему часто нужно применять правила, чтобы он не стал еще больше. В примере Citymapper мы могли бы записывать местоположения пользователей каждую секунду в режиме Go, а не каждые 10 секунд, но тогда у нас было бы в 10 раз больше данных, не обязательно в 10 раз больше ценности. Кроме того, это может быть неаккуратно, и с ним сложно работать; особенно с точки зрения того, чтобы превратить это в нечто более понятное, но также и с точки зрения простого доступа к нужным данным своевременно, без зависания ноутбука или взрыва ноутбука.

Любовное письмо в мусорную корзину

Выхлопные данные, как правило, представляют собой массивную, сложную, детализированную и очень несексуальную кучу данных, которая создает серьезные проблемы при попытках извлечь из нее какую-либо информацию. Это также замечательный, увлекательный и самый удивительный источник информации о поведении пользователей. Он часто используется недостаточно из-за присущих ему трудностей с его использованием, поэтому он может быть большим неиспользованным источником ценности для организации.

Данные исчерпания чрезвычайно полезны, потому что они говорят нам не только что человек сделал, но и как (и, возможно, даже почему) он это сделал.

Я впервые осознал, насколько важными могут быть большие и беспорядочные данные, которые создаются в качестве побочного продукта основной деятельности, в моей докторской степени в очень непонятной области применения статистики и науки о данных в археологии эволюции человека. Я только сейчас оглядываюсь на свою докторскую диссертацию, потратив несколько лет на использование науки о данных в реальном мире, и понимаю, что вся моя докторская диссертация была посвящена важности исчерпывающих данных.

Предыдущая работа в моей области, как правило, была сосредоточена на данных о конечном продукте - в моем случае каменные инструменты, но в моих примерах выше это могла быть последняя транзакция по транспортной карте подписки или на сайте электронной коммерции. Но, просмотрев данные о выхлопных газах, я смог узнать гораздо больше о человеческом поведении. В моей докторской диссертации данные о выхлопных газах были буквально мусорными данными, поскольку они исходили из измерений кусков камня, которые были удалены в качестве побочного продукта, например, при изготовлении наконечника стрелы. Но в коммерческом контексте это могут быть журналы событий, в которых записывается каждое нажатие, которое пользователь делает в приложении перед выбором маршрута, или серия продуктов, которые пользователь просматривал на сайте электронной коммерции, прежде чем совершить свою окончательную покупку.

Данные исчерпания чрезвычайно полезны, потому что они говорят нам не только что человек сделал, но и как (и, возможно, даже почему) он это сделал. Итак, я пишу этот пост в блоге как дань уважения к исчерпывающим данным.

Каменные инструменты и статистика

Что каменные орудия могут рассказать нам о поведении человека?

Я защитил докторскую диссертацию на факультете археологии Оксфордского университета еще в 2015 году. Меня интересовала эволюция человеческого поведения, в частности, когда мы начали вести себя явно «человеческим» образом и как наш вид распространился по миру. Кости и камни, как правило, единственные вещи, которые сохранились с того периода времени, который меня интересовал, и поэтому я попытался ответить на эти вопросы, изучив технологию изготовления каменных орудий.

Традиционно археолог палеолита или каменного века смотрел на наконечники стрел из двух разных областей, решал, что они выглядят примерно одинаково, а затем шел и писал статью о том, как одна и та же группа людей, должно быть, жила в этих двух областях. Фактически, именно так родилась ранее преобладающая теория расселения нашего вида по миру. Эта теория была основана на появлении определенного типа технологии каменных орудий, называемых микролитами. Как следует из названия, микролиты - это очень маленькие каменные орудия, такие как наконечники стрел, каменные зазубрины по бокам копий, рыболовные крючки и крошечные лезвия.

Мы находим похожие на вид каменные орудия в Южной Африке около 70 000 лет назад, в Восточной Африке около 50 000 лет назад и в Южной Азии около 40 000 лет назад. Следовательно, согласно теории, первые современные люди, должно быть, покинули Африку около 50 000 лет назад и распространились по миру, унося с собой наконечники стрел. История раннего современного человеческого развития была сведена к карте, на которой нарисована большая стрелка, говорящая: «Люди идут этим путем»; повествование, в котором люди следовали по этой большой стреле из Африки в Азию и дальше, сбрасывая по пути наконечники стрел, как панировочные сухари.

Введите данные об археологических раскопках

У меня была другая идея - тогда еретическая, теперь широко принятая и предмет многих докладов и конференций. Моя идея заключалась в том, что вместо того, чтобы смотреть на некоторые наконечники стрел, решать, что они выглядят одинаково и заканчивать, мы должны смотреть дальше самих готовых инструментов. Каменные орудия - это конечный результат долгого процесса столкновения камней правильным способом, под правильным углом и с нужной силой, чтобы создать нужный вам инструмент. В процессе изготовления своего прекрасного маленького наконечника стрелы вы получаете целую кучу разбитых камней, о которых вам наплевать - или обесценивание, если использовать причудливый археологический термин (все лучшие археологические термины - французские).

Затем, тысячи лет спустя, появляется археолог в уродливых бежевых брюках и глупой шляпе и находит ваш дебит. Она очень счастлива найти ваши каменные обломки, потому что теперь она может понять не только что вы сделали, но и как вы это сделали. Если последний каменный инструмент - это ваши основные данные, то эти оставшиеся куски породы - ваши данные о выхлопе.

Debitage может рассказать вам целую кучу о том, как именно был сделан инструмент. Вы можете узнать, какой камень выбрал человек, как он держал его, как он ударил по нему, чем он ударил, какова была его техника, меняли ли они молотки, клали ли они его и возвращались к нему позже, делали ли они другие инструменты из того же камня, о чем они больше всего заботились при создании этого инструмента, и о множестве других аспектов своего поведения. Иногда можно даже собрать целое ядро, как пазл, и реконструировать весь процесс (иногда буквально - мой друг обычно оставлял кучи дебетовой документации на столе в своем отделе, чтобы скучающие студенты иногда останавливались, чтобы сложить части. вместе), и иногда есть пробелы, но всегда есть полезные поведенческие идеи, которые нужно блеснуть.

Конечно, обнаружение наконечника стрелы может сказать вам, что люди делают стрелы. Но знание того, как именно это было сделано, может рассказать вам гораздо больше о поведении человека, производящего его, а также об их культуре и традициях. Важно отметить, что в контексте моего исследования он мог сказать мне, делали ли те же люди одинаковые инструменты одинаковым способом, или разные люди делали одни и те же инструменты разными способами. В биологии это называется конвергентной эволюцией, когда два вида по отдельности развивают одну и ту же черту, потому что они сталкиваются с одними и теми же проблемами окружающей среды, даже если они никогда не встречались, чтобы обмениваться заметками. Например, акулы и дельфины - ужасные умные морские существа, которые охотятся на рыбу и имеют похожие на вид плавники, но одна из них - рыба, а другая - млекопитающее, и они развивались отдельно в течение примерно 300 миллионов лет.

Важным выводом из этого для науки о данных является то, что можно было выяснить, что разные люди делали разные вещи, несмотря на тот факт, что результат был одинаковым, только взглянув на данные о процессе, который они использовали для этого, а чем просто конечный результат.

Введите статистику

Чтобы перейти к концу, проведя месяцы в различных частях света, измеряя каменные орудия и связанные с ними дебитирования камня, и применяя различные статистические методы и модели для поиска закономерностей в данных, конвергентная эволюция - это именно то, что я обнаружил. Люди в Южной Африке и Лесото делали инструменты, очень похожие на людей в Индии и Шри-Ланке. Но они делали это по-разному и, вероятно, по разным причинам - например, охотились на обезьян в тропических лесах Шри-Ланки и на антилоп в южноафриканской саванне.

Важным выводом из этого для науки о данных является то, что можно было выяснить, что разные люди делали разные вещи, несмотря на тот факт, что результат был одинаковым, только взглянув на данные о процессе, который они использовали для этого, а чем просто конечный результат. Теперь, когда я специалист по данным, работающий в промышленности, а не в малоизвестном уголке академических кругов, я понял, что это очень важный урок для понимания данных организации в более общем плане.

Какое отношение все это имеет к данным выхлопных газов в реальном мире?

Применяя тот же подход к коммерческим данным

Точно такой же подход может использоваться компаниями и другими организациями для извлечения ценности и анализа данных о своих клиентах, которые они хранят. Может быть, мы с вами зашли на один и тот же сайт электронной коммерции и купили копию моей книги о моих докторских исследованиях (хотя я очень в этом сомневаюсь - это исключительно нишевая). Если посмотреть только на основные данные, то мы увидим то же самое, поскольку наша последняя транзакция на сайте заключалась в покупке той же книги.

Но, возможно, вы зашли прямо на сайт, набрали название книги, перешли на страницу продукта, купили его и покинули сайт. Тем временем, может быть, я зашел в раздел с книгами на сайте, просмотрел множество разных страниц с продуктами, провел больше времени на каждой странице, прочитал все обзоры, ненадолго отвлекся на светящийся в темноте мраморный бег, а затем вернулся к книге и наконец купил ее. Возможно, оба эти процесса хорошо отражают наши привычки к покупкам и просмотру веб-страниц. Мы очень разные типы клиентов с разными покупательскими привычками, несмотря на то, что в конечном итоге купили один и тот же товар. Как и выше, я говорил о разных людях, создающих одни и те же инструменты разными способами, мы разные люди, покупающие один и тот же продукт разными способами.

Практические советы по извлечению пользы из данных о выхлопе

Есть много полезных идей, которые вы можете получить, глядя на такие данные о выхлопных газах. Например:

  • Эти привычки могут быть репрезентативными для более широких категорий покупателей, поэтому какой-то кластерный анализ для сегментации клиентов (тип неконтролируемого машинного обучения) может помочь вам лучше понять своих клиентов - возможно, с помощью некоторых эффективная визуализация данных. Это также может помочь вашему отделу маркетинга в создании образов пользователей.
  • Или они могут позволить вам помочь руководству продукта выяснить, что нужно различным группам пользователей и какие функции должны быть приоритетными. Например, в моем примере, приведенном выше, я мог бы проводить много времени на разных страницах продуктов, потому что изо всех сил пытаюсь определить, какие именно элементы меня интересуют - так что, возможно, какая-то форма продукта система рекомендаций может быть в порядке или улучшения существующей системы.
  • И наоборот, в приведенном выше примере вы можете использовать сайт только для покупки определенных вещей, которые вам уже рекомендовали другие люди (возможно, я рассказал вам все о своей книге в пабе, и вы обещали купить ее, чтобы я не говорил об археологии) . Это здорово, но, возможно, на сайте есть другие элементы, которые могут вам понравиться, но вы еще не знаете о них. Специалист по анализу данных может захотеть попробовать AB-тестирование, чтобы поэкспериментировать с разными страницами сайта, чтобы увидеть, могут ли внесение некоторых изменений в макет или контент побудить клиентов проводить на сайте больше времени и проверить из некоторых других продуктов, которые могут им понравиться.

Резюме

Время, потраченное на очистку, понимание, извлечение и анализ данных о выхлопных газах, может иметь огромное значение для компании. Это может помочь вам понять ваших клиентов на гораздо более детальном уровне - не только то, что они делают с вашим продуктом, но и как именно они это делают. Наука о данных лучше всего, когда она напрямую помогает клиентам. Даже если работа с данными о выхлопных газах может быть немного утомительной (извините), учет всех данных клиентов - отличный способ по-настоящему понять их поведение и предоставить им самые лучшие продукты.