За последние 6–8 лет наука о данных (DS)/искусственный интеллект (ИИ) перешла из исследовательских лабораторий в мейнстрим в качестве функции часто используемых приложений. После выпуска ChatGPT было так много шума и ажиотажа, что даже обычный человек знает, что такое ChatGPT. Тем не менее, большинство из нас находят жаргон и терминологию, используемые в ежедневных новостях и литературе, такие как Data Science, Artificial Intelligence, Machine Learning, Deep Learning, Computer Vision, Natural Language Processing и т. д., очень озадачивающими. Насколько я понимаю, в этой статье я стремлюсь демистифицировать некоторые из часто используемых жаргонов в DS/AI и попытаться сделать их более понятными.

Святой Грааль: Данные

Почему исследователь данных рассталась со своим парнем?
Потому что у него было слишком много нулевых значений и недостаточно данных! 😊

Но сначала давайте кратко поговорим о данных, матери всех грехов.

  • Латинское слово datum, означающее что-то данное, является источником слова данные. Впервые оно появилось в английском языке в середине семнадцатого века, имея в виду письменные данные. Важно помнить, что определение и применение данных могут различаться в разных дисциплинах, включая естественные науки, математику и социальные науки.
  • На заре вычислительной техники данные в основном хранились в физических форматах, таких как перфокарты и магнитные ленты. Но с появлением цифровых хранилищ и Интернета данные стали более доступными и их можно анализировать в гораздо большем масштабе. Это привело к появлению новых областей, таких как наука о данных и аналитика, которые используют передовые алгоритмы для извлечения информации из огромных объемов данных.
  • Информация, которая может быть обработана компьютером, например текст, изображения, видео и т. д., теперь называется данными. В результате роста сбора и хранения данных возникла большая потребность в правилах управления данными и конфиденциальности. Кроме того, различные отрасли, включая финансы, здравоохранение и маркетинг, все чаще используют данные при принятии решений. Определение и использование данных будут развиваться еще дальше по мере развития технологий, влияя на то, как мы воспринимаем мир.
  • Ранние формы сбора данных, такие как перепись, налоговые отчеты и даже наскальные рисунки, заложили основу для современных методов анализа данных, что привело к новым открытиям и достижениям в различных областях.

Сколько данных у нас есть?

Почему центр обработки данных отделился от облака? Потому что в облаке было слишком много места для хранения данных, из-за чего центр обработки данных чувствовал себя неадекватным. Ведь размер имеет значение! 😁

  • По оценкам исследования IBM, ежедневно создается 2,5 квинтиллиона байтов данных. Для сравнения, один квинтиллион равен одному миллиарду гигабайт.
  • IDC прогнозирует, что к 2025 году объем данных, которые будут сгенерированы, собраны и реплицированы по всему миру, составит 175 зеттабайт. Для сравнения, один зеттабайт равен одному триллиону гигабайт.
  • Подключенные устройства будут производить огромное количество данных к 2025 году, когда, по прогнозам, средний человек будет использовать их почти 4800 раз в день.
  • Ожидается, что к 2025 году 10,3 зеттабайта данных, генерируемых устройствами Интернета вещей (IoT), увеличатся до 79,4 зеттабайта.
  • Крупнейшие технологические компании мира, такие как Google, Facebook и Amazon, производят огромное количество данных. В то время как в 2020 году у Facebook было более 2,8 миллиардов активных пользователей в месяц, Google ежедневно обрабатывал более 3,5 миллиардов поисковых запросов.
  • Сектор здравоохранения также производит огромные объемы данных. Согласно отчету Deloitte, объем медицинских данных, которые включают информацию из таких источников, как носимые устройства, геномика и электронные медицинские записи, по прогнозам, будет увеличиваться на 36% ежегодно до 2025 года.
  • Использование видео является еще одним фактором расширения данных. По прогнозам, к 2025 году видеоконтент будет составлять 80% всего интернет-трафика.
  • Потребность в новых технологиях и методах для эффективного хранения, управления и анализа данных возрастает по мере того, как их объемы продолжают расти. В результате стали возможными аналитика больших данных, искусственный интеллект и машинное обучение, и теперь они помогают предприятиям осмысливать огромные объемы данных, которые они собирают.

И если кто-то все еще не уверен в ценности данных, имейте в виду, что незнание — это блаженство, пока бизнес с треском не рухнет 😇

Данные имеют решающее значение, поскольку они помогают предприятиям, людям и машинам внедрять инновации, принимать более обоснованные решения, получать новые сведения, повышать эффективность и автоматизировать процедуры.

  1. Помогает в принятии решений. Вместо того чтобы полагаться на интуицию или интуицию, данные позволяют организациям делать грамотный выбор на основе реальных данных. Компании могут принимать более обоснованные решения, анализируя данные для выявления тенденций, закономерностей и потенциальных проблем.
  2. Предлагает ценную информацию. Анализ данных позволяет получить информацию о поведении, вкусах и требованиях потребителей. Эти знания могут помочь предприятиям в улучшении разработки продуктов, маркетинговых инициатив и потребительского опыта.
  3. Содействует инновациям. Данные часто используются для поиска возможностей для роста или решения проблем. Это может привести к инновациям и разработке новых товаров, услуг или процедур.
  4. Повышает эффективность. Данные можно использовать для оптимизации операций, сокращения расходов и повышения производительности. Организации могут выявить недостатки и области для улучшения, изучая данные.
  5. Облегчает автоматизацию. Машины и алгоритмы могут учиться и приспосабливаться к новым ситуациям с использованием данных, обеспечивая автоматизацию. В результате операции могут стать более эффективными и действенными.

Иногда данные могут выявить совершенно неожиданные закономерности, которые трудно принять. Например, в 2011 году Рэндалл Манро, бывший астронавт НАСА, ныне работающий веб-карикатуристом, утверждал, что «если вы берете любую статью, нажмите на первую ссылку в тексте статьи, а не в скобках или курсивом, а затем повторите: в конечном итоге вы окажетесь на «Философии». Это кажется абсурдным на первый взгляд. Однако исследования показали, что это действительно так. См. график ниже; 95% отправных точек, которые в конечном итоге приводят к философии, представлены черными точками. Это явление известно как wiki-loops.

С подробностями эксперимента можно ознакомиться в этой статье

Мистическая паутина страшных жаргонов

Моя девушка рассталась со мной из-за моего «нехватки словарного запаса»…
Что это вообще должно означать? 🤔

Сегодняшние модные словечки включают data science, machine learning, artificial intelligence (ИИ) и deep learning. Эти термины часто взаимозаменяемы и постоянно используются. Хотя данные объединяют их всех и связывают воедино, между ними все же есть существенные различия.

Мы пытаемся постигать их по одному, т. е. переходя от внешних кругов к внутренним кругам. Внешний круг представляет самую широкую категорию, а внутренние круги представляют более конкретные подкатегории. Такой подход помогает лучше понять нюансы.

Наука о данных

Наука о данных на 20 % занимается подготовкой данных и на 80 % жалуется на подготовку данных. 😂

Наука о данных — это междисциплинарная область, объединяющая элементы statistics, computer science и domain-specific-knowledge. Формальным определением науки о данных было бы «наука о данных включает использование статистических и вычислительных методов для извлечения информации из данных».

Гораздо проще понять приведенное выше определение…

  • Если мы думаем о «науке о данных» как об очень широком термине, который включает в себя множество различных дисциплин, возможностей и методологий.
  • Если мы рассмотрим его основную цель, состоящую в том, чтобы извлечь информацию как из structured, так и из unstructured данных для продвижения reasoned-decision-making, важно помнить, что наука о данных не требует и не ограничивает использование компьютеров или других машин для получения информации; описательный, прогностический и предписывающий анализ можно выполнить с помощью калькулятора с ручкой и бумагой; однако это может быть не самый практичный подход для больших наборов данных.

Следующий список содержит некоторые из субдисциплин науки о данных. На самом деле эти дисциплины переплетены, и между ними нет четкой границы, но в целях понимания на высоком уровне я попытался описать их по отдельности…

  • Интеллектуальный анализ данных. Интеллектуальный анализ данных используется для извлечения информации из больших и сложных наборов данных, которые могут быть unstructured или содержать скрытые закономерности. Интеллектуальный анализ данных также больше ориентирован на discovery of novel insights and patterns. Общие инструменты включают Teradata, IBM SPSS, Oracle Data Mining, RapidMiner и т. д.
  • Анализ данных. Анализ данных — это процесс изучения и понимания structured data с помощью таких инструментов, как электронные таблицы, SQL databases, statistical software, business intelligence tools, Python и R.
  • Аналитика больших данных. Аналитика больших данных включает обработку и анализ огромных объемов данных, которые выходят за рамки возможностей традиционных инструментов и методов анализа данных. Общие инструменты включают Hadoop, Spark, business intelligence tools и NoSQL databases.
  • Статистический вывод. Под статистическим выводом понимается процесс получения выводов или прогнозирования population на основе sample of data из этой совокупности. Это важный инструмент для принятия обоснованных решений и обоснованных выводов на основе эмпирических данных, например, клинических испытаний, опросов общественного мнения, контроля качества и мониторинга окружающей среды.
  • Искусственный интеллект: общая дисциплина; мы обсудим это подробно в следующем разделе.

Искусственный интеллект (ИИ)

Мне только что пришло в голову, что противоположность искусственного интеллекта — это… «Настоящая глупость» 😎

Цель искусственного интеллекта (ИИ), который считается отраслью компьютерных наук, состоит в том, чтобы дать машинам возможность выполнять сложные задачи, сравнимые с задачами, выполняемыми людьми, включая решение проблем, восприятие, распознавание и выражение эмоций, а также принятие решений. Первые попытки использовать искусственный интеллект (ИИ) в expert systems компьютерных программах, имитирующих суждения экспертов-людей, были предприняты в 1970-х годах. Экспертные системы создаются для рассуждений с помощью баз знаний, которые в основном представлены как if-then-else rules, а не с помощью традиционного процедурного кода. Например, робот с разумным дизайном и программным обеспечением может выполнять работу по дому, например, подметать, убирать, собирать использованную посуду и выносить мусор. Одним из наиболее широко используемых языков программирования для создания экспертных систем был Prolog (https://www.swi-prolog.org/). Посмотрите этот упрощенный пример экспертной системы, использующей Prolog.

General AI, также известный как общий искусственный интеллект (AGI), представляет собой гипотетическую способность системы ИИ выполнять любую интеллектуальную задачу, которую может выполнить человек. Иногда его называют strong AI or full AI, и его целью является создание машины, способной учиться и адаптироваться к новым ситуациям так же, как это делают люди. Для этого потребуется система, которая способна обрабатывать и анализировать данные, а также способна рассуждать о них, учиться на них и применять полученные знания в новых ситуациях.

Несмотря на то, что общий ИИ прошел долгий путь, он по-прежнему во многом является абстрактным понятием, и многие эксперты считают, что даже если оно и возможно, то пройдет очень много времени, прежде чем оно будет реализовано.

Следовательно, нам не нужно беспокоиться о том, что машины вскоре захватят контроль над нашим миром. Но давайте смотреть правде в глаза, люди уже проделывают фантастическую работу по уничтожению мира, и нам не нужно, чтобы ОИИ был реализован, чтобы это произошло. 😁

Обратитесь к этой отличной статье об AGI, если вас интересуют подробности.

Машинное обучение

Что общего между специалистом по машинному обучению и модельером?
Они оба специализируются на подгонке кривых. 😝

Разделом искусственного интеллекта является машинное обучение. Изучая данные без явного программирования, он позволяет компьютерным системам автоматически повышать свою производительность при выполнении конкретной задачи. Модель машинного обучения учится на данных, как и люди, благодаря практике и опыту. Знания человека обычно развиваются с опытом и практикой. Точно так же модель становится все лучше и лучше, чем дольше она обучается на данных. Например, если бы мы хотели научить компьютер распознавать изображения собак, мы бы показывали ему массу этих изображений. Затем компьютер попытается узнать, какие характеристики, такие как мех, четыре ноги и хвост, определяют собаку как собаку. Затем компьютер может определить, принадлежит ли новое изображение собаке, ища эти характеристики, когда мы представляем его ему.

Существуют различные классификации машинного обучения, которые можно встретить в публикациях и литературе:

По типу данных и методу обучения:

  • Обучение с учителем. Когда модель обучается с использованием labeled data, каждая точка данных помечается желаемым результатом, что называется обучением с учителем. Основываясь на шаблонах, которые она идентифицировала из размеченных данных, модель учится точно предсказывать результаты для новых данных.
  • Неконтролируемое обучение. Это процесс обучения модели распознаванию шаблонов и структур данных без явных указаний, что искать. Он включает в себя обучение модели с помощью unlabeled data.
  • Обучение с подкреплением. Обучение модели принятию решений на основе feedback from the environment — это процесс обучения с подкреплением. Например, выиграв игру или завершив задание, модель учится действовать так, чтобы maximizes a reward signal.

По уровням (глубине) слоев, используемых моделью:

  • Поверхностное обучение. Подмножество методов машинного обучения, основанное на более простых моделях и, следовательно, требующее меньших вычислительных ресурсов, называется поверхностным обучением, также известным как традиционное или классическое машинное обучение. Когда машинное обучение было в зачаточном состоянии, эти алгоритмы часто применялись для решения четко определенных задач, связанных с structured data, где связи между входными и выходными данными очевидны и просты для понимания. Они остаются лучшим вариантом решения даже сегодня, если проблема подходит для поверхностного обучения. Поскольку объяснение того, как модель принимает решения, является одним из основных требований, предъявляемых предприятиями, где ожидается использование моделей, они продолжают оставаться популярными, прежде всего потому, что они требуют меньше вычислительной мощности и, что более важно, потому что их относительно легко понять. XGBoost и Random Forest — два хорошо известных примера древовидных алгоритмов, наряду с support vector machines, logistic regression, K nearest neighbor и linear regression.
  • Глубокое обучение. Глубокое обучение (DL), как следует из названия, использует несколько уровней вычислений (могут быть сотни уровней в глубину) и требует значительно больше вычислительных ресурсов, чем поверхностное обучение. Основным преимуществом глубокого обучения является его способность учиться на сложных и неструктурированных данных, включая text, audio, video и image. Алгоритмы глубокого обучения могут автоматически изучать функции и шаблоны из необработанных данных, в отличие от традиционных алгоритмов машинного обучения, которые зависят от созданных вручную функций и правил для представления данных. В целом, глубокое обучение изменило многие дисциплины, включая computer vision, natural language processing и speech recognition. Они являются движущей силой захватывающих новых технологий, таких как self driving cars и large-language-models (LLM). DL также сделал возможным создание интеллектуальных систем, способных выполнять задачи, которые ранее считались непосильными для компьютеров. Процесс принятия решений модели глубокого обучения непрозрачен и чрезвычайно сложен для понимания, что является одним из ее основных недостатков в дополнение к требованию значительной вычислительной мощности. Термин «нейронные сети» также используется для описания моделей глубокого обучения. Convolutional Neural Networks (CNN), Long-Short Term Memory (LSTM), Generative Adversarial Network (GAN) и Transformers — одни из наиболее часто используемых в современном глубоком обучении.

Надеюсь, мне удалось разъяснить сложную терминологию и жаргон ИИ. Спасибо за чтение, и не стесняйтесь комментировать или связаться со мной.