Наука о данных, большие данные, озера данных, искусственный интеллект, интеллектуальный анализ данных, машинное обучение, глубокое обучение, бизнес-аналитика, бизнес-аналитика… В последние годы об этом много писали и говорили. И, как обычно, когда что-то становится модным, концепции, определения и ограничения постепенно исчезают.

В этой статье я пытаюсь навести порядок, объясняя кто есть кто простым способом. Если эти вещи вам непонятны ... оставайтесь со мной!

Доступно и на испанском | Artículo disponible también en español

Если у вас есть учетная запись в Linkedin и вы регулярно ее используете, возможно, вы заметили, что становится все сложнее узнать, что, черт возьми, делает человек, просто прочитав его заголовок. Мы заполнили все яркими техническими словами и аббревиатурами, которые, возможно, мы уже устали видеть, но, конечно же, мы не удосужились найти их значение.

«Но ты ... что именно ты делаешь?»

И тут начинается самое интересное ...

  • Если вопрос задает кто-то, кто работает в той же роли, вы можете объяснить его очень подробно (или у вас должно получиться это сделать).
  • Если это делает кто-то из того же сектора, вам может быть дано объяснение, предполагая, что другой человек знает все технологии, с которыми вы работаете, и вы, вероятно, потерпите неудачу.
  • Если вопрос исходит от кого-то, кто посвящает себя чему-то другому: вот тогда вам действительно предстоит пройти испытание. Особенно, если собеседник начинает задавать вам вопросы ...
  • Что, если бы вам пришлось объяснять это своей бабушке?

И вот куда я хотел попасть. Есть «знаменитая» цитата (ошибочно приписываемая Альберту Эйнштейну), которая гласит:

«Ты чего-то не понимаешь, пока не сможешь объяснить это своей бабушке»

В другом варианте вместо бабушки используется шестилетний ребенок, но если мы говорим о технологиях, вы позволите мне выбрать первый.

Пару лет назад моему коллеге Антонио Кальдероне пришла в голову идея применить это, чтобы объяснить коммерческим менеджерам нашей компании все, что мы делаем в Подразделении цифровой трансформации. И дать им возможность пересказать это (сломанный телефон). Пришлось поговорить о больших данных, бизнес-аналитике и немного о машинном обучении. По правде говоря, мне было нелегко ... хотя я хочу думать, что они поняли основные идеи.

Что ж, я повторю здесь то же упражнение, разъясняя более широкие концепции, связанные с миром данных, и постараюсь сделать его подходящим для любой аудитории :)

Наука о данных (DS)

Простое определение: Data Science - это набор навыков и методов, применяемых для извлечения полезных знаний из данных.

Этот набор навыков часто представлен диаграммой Венна, созданной Дрю Конвей (или одним из ее вариантов):

У нас есть три круга, представляющие три дифференцированных поля. С одной стороны, у нас есть область программирования (знание языка, его библиотек, шаблонов проектирования, архитектуры и т. Д.). С другой стороны, есть математика (алгебра, исчисление и т. Д.) И статистика. Наконец, что не менее важно, область данных (знание конкретного сектора; здравоохранение, финансы, промышленность и т. Д.).

Эти поля объединяются, давая начало навыкам и методам из определения. Здесь у нас есть такие вещи, как получение данных, их очистка, их анализ, создание гипотез, алгоритмов, машинное обучение, оптимизация, визуализации для представления результатов и многое другое.

Наука о данных объединяет эти области и навыки, позволяя и улучшая процессы извлечения идей и знаний из необработанных данных.

А что такое «полезные знания»? тот, который добавляет какую-то ценность; ответить на вопрос или решить проблему из реального мира.

Науку о данных также можно определить как область, которая изучает и применяет прогресс в обработке и анализе данных, чтобы дать нам решения и ответы.

Большое количество данных

Это будет самый простой вариант: большие данные - это просто огромный объем данных; и ничего больше :)

Для определения «больших данных» их обычно объясняют с помощью трех V, которые являются тремя основными причинами их происхождения:

  • Объем: объем собираемых данных абсурдно растет каждую минуту, и нам необходимо адаптировать наши инструменты хранения и обработки к этому объему, используя распределенное решения (использование нескольких машин вместо одного ОЧЕНЬ дорогого суперкомпьютера / мэйнфрейма).
  • Скорость: срочность, необходимая для обработки данных, связана с частотой их генерации / сбора и необходимостью использовать их при принятии решений как можно быстрее; даже в реальном времени (или почти).
  • Разнообразие: данные больше не (только) структурированы, поэтому мы должны забыть, что все может быть помещено в традиционную базу данных. Мы должны быть готовы к добавлению новых источников данных во всех форматах; от простого текста до мультимедийного содержимого.

По прошествии времени добавлялось больше V: достоверность (данные должны быть достоверными, достоверными и доступными), ценность (данные должны иметь ценность для бизнеса или общества. ) и уязвимость (данные должны соответствовать закону, уважать конфиденциальность, а также храниться и быть доступными безопасным способом).

Большие данные будут набором решений, пытающихся решить все эти проблемы. Не путайте это с первой концепцией, описанной в этой статье: большие данные - это все, что позволяет или облегчает применение достижений в области науки о данных, когда этого требует природа данных. Пример: мы, как специалисты по обработке данных, пытаемся получить ответы из набора данных, который не только превышает размер нашей оперативной памяти, но также превышает размер нашего жесткого диска. Большие данные предоставляют нам технологии распределенного хранения для размещения данных на нескольких машинах, а также технологии распределенной обработки для их параллельной обработки.

Озеро данных

Озеро данных - это централизованное хранилище, используемое для хранения данных всех видов: структурированных (данные, которые мы использовали для размещения в таблицах, четко определены), полуструктурированных (данные, которые соответствуют формату, в котором подходит почти все: CSV, журналы, JSON, XML и т. Д.) И неструктурированные (документы, электронные письма, PDF-файлы, изображения, видео, аудио и т. Д.). Не имеет значения, генерируются ли данные внутри нашей компании или за ее пределами.

«Централизованность» подразумевает, что все будет храниться в одном месте, и все будут иметь доступ к нему для получения данных. Это не означает, что все данные хранятся на одном компьютере или внутри компании; почти как правило будет использоваться распределенное хранилище, и данные также могут находиться в облаке.

Не упускайте из виду важную деталь: данные хранятся в необработанном формате (исходном) без каких-либо изменений. Это означает, что никакая информация не теряется для будущего анализа; данные будут обрабатываться и преобразовываться только тогда, когда они используются. Кроме того ... какой смысл готовить рыбу перед тем, как положить ее в озеро? :)

Искусственный интеллект (ИИ)

«Могут ли машины думать?»

В 1950 году Алан Тьюринг сформулировал этот вопрос и даже создал знаменитый тест, чтобы оценить, похожи ли ответы, даваемые машиной, на ответы человека. С этого момента и начались фантазии об искусственном интеллекте с упором на имитацию человеческого поведения.

Ой, подожди! я не собирался рассказывать вам Историю искусственного интеллекта ...

Вернемся к самой концепции. Искусственный интеллект - это не репликанты «Бегущего по лезвию» и не сайлоны «Звездного крейсера Галактика». Мы можем определить искусственный интеллект как любую машину или программное обеспечение с каким-то разумным поведением.

А что считается разумным поведением?

Хороший вопрос! Это тот момент, с которым мы не согласны… По мере того, как машины развивают новые возможности, появляются задачи, которые ранее считались интеллектуальными, и которые были исключены из среды искусственного интеллекта. Например, когда потрясающий Deep Blue победил Гарри Каспарова в шахматном матче и его создатели объяснили, как это действительно работает, бедная девочка из самой умной превратилась в квалификацию даже тупой (с большим зверством). сила, это правда).

Давайте определим искусственный интеллект как любую машину или часть программного обеспечения, способную правильно интерпретировать данные из своей среды, учиться на них и использовать полученные знания для выполнения конкретной задачи в меняющемся контексте.

Примеры: автомобиль, который паркуется сам по себе, не считается умным; он просто измеряет расстояния и двигается в соответствии с установленным распорядком. Автомобиль, способный двигаться автономно, считается умным, поскольку он способен принимать решения на основе того, что происходит вокруг (в совершенно неопределенной среде).

Область искусственного интеллекта охватывает несколько отраслей, которые в настоящее время находятся в полном апогее. Их удобно визуализировать, чтобы точно понимать, о чем мы говорим:

Сбор данных

Data Mining - это искусство поиска интересных (и не очевидных) закономерностей с использованием методов исследования данных.

Какие паттерны мы имеем в виду? такие вещи, как: способ группировки данных на основе определенных характеристик, обнаружение аномалий (редкие значения), зависимость между некоторыми наблюдениями и другими, последовательность определенных событий, идентификация поведения и т. д.

В интеллектуальном анализе данных используются, среди прочего, методы машинного обучения.

Машинное обучение (ML)

Машинное обучение - важнейшая отрасль искусственного интеллекта. Его задача: исследование и разработка методов, позволяющих машинам учиться самостоятельно, чтобы выполнять конкретную задачу, без явных инструкций от людей.

Машина будет учиться на основе набора входных данных (известного как образец или обучающие данные), создавая математическую модель на основе шаблонов, обнаруженных алгоритмом. Конечная цель этой модели - делать (точные) прогнозы или решения на основе данных, поступающих впоследствии из тех же источников.

В рамках классического машинного обучения существует два основных типа:

  • Контролируемое обучение: когда данные обучения имеют «пометку». Это означает, что для каждой выборки у нас есть значения, соответствующие наблюдаемым переменным (входным данным) и переменной, которую мы хотим научиться предсказывать или классифицировать (выходная, целевая или зависимая переменная). В этом типе мы находим алгоритмы регрессии (те, которые предсказывают числовое значение) и алгоритмы классификации (когда вывод ограничен определенными категориальными значениями).
  • Обучение без учителя: когда данные обучения не помечены (у нас нет целевой переменной). Цель здесь - найти какую-то структуру или шаблон, например, сгруппировать обучающие образцы, чтобы мы могли классифицировать будущие образцы.

На смену классическому машинному обучению пришли более сложные или современные аспекты:

  • Методы ансамбля : в основном это совместное использование нескольких алгоритмов для получения лучших результатов путем объединения их результатов. Самый распространенный пример - Random Forests, хотя XGBoost стал очень известен благодаря победам в Kaggle.
  • Подкрепление Обучение: машина учится методом проб и ошибок, благодаря обратной связи, которую она получает в ответ на итерации с окружающей средой. Возможно, вы слышали об AlphaGo (лучший в мире игрок в го) или AlphaStar (способный сокрушить нас в Starcraft II).
  • Глубокое обучение: жемчужина в короне…

Глубокое обучение (DL)

Как мы только что видели, глубокое обучение - это дополнительная область машинного обучения.

Он основан на использовании искусственных нейронных сетей. Искусственная нейронная сеть - это вычислительная модель со слоистой структурой, образованной взаимосвязанными узлами, которые работают вместе. Они получили это название из-за их вдохновения (или попытки моделирования) биологических нейронных сетей, которые мы находим в нашем мозгу.

Хотя нейронные сети изучались и использовались в течение многих лет, прогресс в этой области до недавнего времени был очень медленным; в основном ограничивается отсутствием вычислительной мощности. Глубокое обучение началось только в последнее десятилетие, хотя в последние годы оно пережило большой бум, отчасти благодаря внедрению графических процессоров для обучения нейронных сетей.

Существует распространенное мнение: любую проблему машинного обучения, какой бы сложной она ни была, можно решить с помощью нейронной сети, просто увеличив ее. В настоящее время в остальных областях искусственного интеллекта наблюдается большой прогресс благодаря прогрессу в области глубокого обучения; как в более традиционных (улучшение получаемых результатов), так и в самых модных: обработка естественного языка, искусственное зрение, распознавание речи, генерация реалистичного мультимедийного контента и т. д.

Бизнес-аналитика (BI)

Этот термин относится к использованию данных внутри компании, помогая своим менеджерам в принятии решений.

Инструменты бизнес-аналитики (отчеты, информационные панели) сообщают нам о том, что произошло, и поэтому решения, принимаемые на их основе, будут реактивными.

Бизнес-аналитика (BA)

Это эволюция традиционной бизнес-аналитики с использованием преимуществ больших данных, которые позволяют компаниям исследовать и взаимодействовать с большим объемом данных любого рода, поступающих из большего числа источников; все это (почти) в реальном времени. Он также использует улучшения в области науки о данных, поэтому открытия, сделанные на основе данных, будут гораздо более ценными.

Инструменты BA информируют о том, что произошло и что происходит; но они также предсказывают то, что произойдет, и даже моделируют то, что может случиться, в зависимости от наших действий. Таким образом, принятые решения могут быть упреждающими, а не реактивными.

Идея, лежащая в основе BA, заключается в том, что вся компания может извлечь выгоду из этих открытий, предполагая лучшие (и более быстрые) решения во всех областях.

И это все! Надеюсь, теперь все прояснилось ... не правда ли? :)