Машинное обучение/от Techdigipro/примеры компьютерного программирования, данные, инженерия, примеры машинного обучения, отсутствующие, программирование на Java, программирование на Python, программное обеспечение, примеры программного обеспечения, разработка технологий, машинное обучение/от Techdigipro/примеры машинного обучения, отсутствующие, программирование на питоне , Самые передовые технологии, Различные виды компьютерного программирования
Вариации недостающих данных

Наука о данных и машинное обучение часто сталкиваются с проблемой отсутствия данных, что может быть проблемой для обеих областей. В зависимости от типа данных и подхода, использованного для их получения, данные могут отсутствовать по разным причинам.

Не все отсутствующие данные одинаковы. В этой части мы поговорим об отсутствующих данных, а также о многих категориях отсутствующих данных.

Изображение, опубликованное Пьером Бамином на Unsplash
Хотя мы бы предпочли, чтобы вообще не было пропущенных данных, реальность такова, что причины пропажи данных часто находятся вне нашей сферы влияния, хотя мы бы предпочли, чтобы их не было. .

Например, в данных опроса могут быть пробелы из-за того, что некоторые респонденты решили проигнорировать определенные вопросы.

Другой иллюстрацией этого может быть возможность аппаратного сбоя при работе с данными от датчиков, что ограничило бы сбор данных.

Нет (этичного) способа заставить респондентов отвечать на все вопросы, как нет и способа гарантировать, что технология всегда будет работать должным образом. Следовательно, отсутствие данных невозможно было предотвратить ни в одном из этих случаев.

Прежде чем мы углубимся в тему отсутствующих данных, давайте сначала поговорим об отсутствующих функциях, что означает, что мы не можем собрать все функции целиком.

Например, отсутствующей функцией смарт-часов была бы невозможность измерить концентрацию углекислого газа в атмосфере, если бы часы имели соответствующие датчики.

Существование отсутствующих функций является результатом того факта, что некоторые характеристики, такие как конфиденциальность, стоимость или практичность, не могут быть собраны.

С точки зрения практичности, возможно, вообще не будет способа измерить желаемую функцию. В подобных ситуациях мы можем выбрать измерение функции, которая может заменить желаемую функцию или может быть связана с ней каким-либо образом.

Например, в настоящее время нет датчика, пригодного для использования в смарт-часах, который может напрямую измерять пройденное расстояние.

Акселерометры могут определять ускорение, которое может быть связано с пройденным расстоянием с помощью кинематических уравнений, а GPS может указывать местоположения, где физически находился пользователь, которые можно использовать для определения расстояния.

Многие смарт-часы используют акселерометр и GPS, чтобы обойти это ограничение.

Не исключено, что сбор данных будет либо очень дорогостоящим, либо потребует значительного времени.

Например, если вы собираете информацию о здоровье людей, компьютерная томография и МРТ могут быть очень точными сигналами; однако, поскольку они такие дорогие, возможно, их не соберут.

Решение состоит в том, чтобы решить, какие существуют возможные альтернативы и какую информацию абсолютно необходимо собрать.

Наконец, проблемы с конфиденциальностью могут быть причиной отсутствия определенных функций. Например, люди, которые используют умные домашние гаджеты в своих домах, могут не захотеть, чтобы их действия и разговоры постоянно отслеживались, даже если эта информация может быть полезна для разработки лучшего программного обеспечения.

Крайне важно оценить этику и четко сообщить потребителям об их данных, чтобы устранить недостающие функции, которые являются результатом проблем с конфиденциальностью.

В этой ситуации важно проводить различие между отсутствующими характеристиками и отсутствующими данными.

Отсутствующие признаки не были собраны каким-либо образом, поэтому они не включены в набор данных.

тогда как, когда речь идет о функциях, которые были собраны и являются частью набора данных, могут быть экземпляры отсутствующих данных (таким образом, с отсутствующими данными у нас есть некоторые точки данных, но не все).

Это относится к отсутствию данных, которые имеют рациональное объяснение и не являются результатом случайности.

Для этой конкретной категории отсутствующих данных существует основная причина или структура, которые можно использовать для оправдания отсутствия данных.

Возьмем, к примеру, сценарий, в котором вы собираете информацию о возрасте первенца человека. Если у человека нет детей, то эта характеристика не применяется к этому лицу, и собрать данные по этой характеристике невозможно.

Другой иллюстрацией этого может быть невозможность получить частоту сердечных сокращений человека с носимого устройства, если некоторые из используемых устройств имеют более раннюю версию и не предоставляют необходимой информации.

В обоих случаях отсутствующие данные могут быть связаны с другой характеристикой, объясняющей, почему данные отсутствуют (например, лицо, не имеющее ребенка, объясняет, почему отсутствует возраст его первенца; со старыми носимыми устройствами объясняет, почему их показания сердечного ритма отсутствуют).

Важным сообщением здесь является то, что в случае отсутствия структурных данных причина их отсутствия часто может быть рационально объяснена ссылкой на какое-либо другое свойство (свойства).

Поскольку здесь отсутствует элемент случайности, этот тип отсутствующих данных отличается от следующих трех категорий отсутствующих данных.

Одна из частых стратегий работы с данными, отсутствующими в структурном смысле, состоит в том, чтобы просто отбрасывать или опускать недостающие элементы данных.

Учитывая, что имеющиеся данные и отсутствующие данные разделены по причине, которая одновременно очевидна и объяснима, два набора данных отражают разные совокупности и могут рассматриваться как таковые.

Это относится к ситуации, в которой данные отсутствуют и не имеют никакой связи с какими-либо качествами или характеристиками.

Это просто случайность, что некоторые данные отсутствуют. Нет никакой характеристики, наблюдаемой или измеренной или не наблюдаемой или измеренной, которая влияет на отсутствующие данные.

Тот факт, что отсутствующие данные являются MCAR, может упростить решение проблемы отсутствующих данных.

Поскольку нечего принимать во внимание или корректировать, мы можем рассматривать отсутствующие данные так же, как и любой другой элемент данных, который мы наблюдали. Из-за этого у нас есть возможность сделать оценку на основе данных, которые сейчас доступны, или полностью исключить точку данных.

Мы можем легко сделать обоснованное предположение об отсутствующей информации, используя такую ​​статистику, как среднее значение, медиана или мода.

С другой стороны, если процент отсутствующих данных низок или если у нас есть большой объем доступных данных, можно опустить эти конкретные точки данных.

MCAR — чрезвычайно тяжелое заболевание, которое почти никогда не встречается в реальной жизни. В большинстве случаев существует причина, по которой данные отсутствуют, и эта причина делает невозможным для них быть MCAR.

Однако, в зависимости от того, насколько слаба связь между рассматриваемым объектом (или объектами) и отсутствующими данными, мы можем иногда предположить MCAR.

Например, если мы собираем информацию со смарт-часов и эту информацию необходимо передать через Интернет, существует вероятность того, что в какой-то момент наше интернет-соединение прервется.

Когда это происходит, данные теряются, а поскольку надежность Интернета связана с потерянными данными, мы можем сделать вывод, что потерянные данные не являются MCAR.

(Важно иметь в виду, что, хотя надежность Интернета связана с отсутствующими данными, эти данные не являются структурно отсутствующими, поскольку сбой соединения является случайным событием, которое не всегда гарантировано.) Предполагая, что отсутствующие данные Этот MCAR позволяет нам быстро устранить недостающие данные (т. е. заменить статистикой или удалить) и продолжить наш анализ, если мы определим, что эта проблема сама по себе является случайной или затрагивает только очень небольшую часть данных.

Если мы определим, что эта проблема влияет только на очень небольшую часть данных, мы предполагаем, что отсутствующие данные — это MCAR.

Это описывает ситуацию, в которой некоторые факторы в наборе данных приводят к случайному отсутствию некоторых данных.

Отсутствующие данные в MAR связаны с другими характеристиками, которые мы собрали.

Чтобы продолжить наш разговор об умных часах, скажем, что помимо данных, полученных датчиками, мы также собрали информацию о конкретной модели или производителе часов.

Если характер отсутствия данных варьируется в зависимости от брендов и типов (например, если часы, произведенные компанией А, работают значительно лучше и с меньшей вероятностью будут иметь проблемы со сбором/отправкой данных), то это считается MAR.

Чтобы различать различные типы отсутствующих данных, структурно отсутствующие данные будут иметь место, когда наблюдаемая функция, марка или тип, являясь определенной ценностью, всегда приводит к отсутствию данных (например, часы, произведенные компанией B, никогда не собирают определенную информацию). функция), а MCAR будет иметь место, когда нет связи между функциями и отсутствующими данными (например, бренд и тип не коррелируют с отсутствующими данными).

Вменение отсутствующих данных статистикой (такой как среднее значение, медиана или мода) и контроль рассматриваемого признака - один из способов справиться с этим в MCAR(s). Например, замена отсутствующих данных средним значением всех данных, доступных для смарт-часов того же бренда и типа (например, замена отсутствующих данных для смарт-часов компании А средним значением доступных данных часов от компании только А).

Другой альтернативой является разработка модели (например, с использованием такого метода, как линейная или логистическая регрессия), которая берет связанные функции и предсказывает желаемую функцию на основе имеющихся данных.

В целом сценарий MAR для отсутствующих данных считается более реалистичной альтернативой сценарию MCAR.

Это описывает ситуацию, в которой данные отсутствуют по непонятной причине и случайным образом. Фактор, ответственный за это, не измеряется и не наблюдается (в отличие от MCAR), и его можно найти вне набора данных.

Продолжая аналогию со смарт-часами, предположим, что у нас отсутствовали некоторые данные, и они были связаны с уровнями азота, но уровни азота нельзя было собрать.

В этом случае отсутствующие данные будут MCAR. Обратите внимание, что рассматриваемая характеристика в настоящее время не замечается.

Кроме того, MNAR может иметь место с неизвестными характеристиками, что делает возможным, что это наиболее общий тип отсутствующих данных.

Учитывая, что MNAR может включать неизвестные характеристики, теоретически любые отсутствующие данные могут быть отнесены к категории MNAR. Однако это нежелательный результат, поскольку он затрудняет разрешение данных MNAR.

Это связано с тем, что отсутствующие данные связаны с неизвестной или ненаблюдаемой переменной. Из-за этого вменение и моделирование недостаточны в качестве методов анализа.

Кроме того, потеря данных может быть проблематичной, потому что это может привести к тому, что кто-то упустит важную основную тенденцию в данных. В конце концов, любой анализ, выполненный с помощью MNAR, может содержать ошибки или быть неполным…

Подробнее…