Публикации по теме 'missing-data'


Каков наилучший способ заполнить недостающие данные?
Исследователь данных сталкивается с наборами данных, которые являются неполными или содержат данные, которые не имеют отношения к делу. Крайне важно привести данные в порядок для любого проекта по науке о данных, особенно если для данных используется алгоритм машинного обучения. У специалиста по данным есть несколько вариантов, когда он пытается заполнить пробелы в данных, но какой из них ему следует выбрать?

Обработка отсутствующих данных и выбросов в машинном обучении: проблемы и решения
Машинное обучение — это быстро развивающаяся область с бесконечными потенциальными приложениями. Однако, как и в любой области исследования, существуют проблемы, которые необходимо решить, чтобы получить точные результаты. Две самые большие проблемы, с которыми сталкивается машинное обучение, — это отсутствие данных и выбросы. Отсутствующие данные могут возникать по разным причинам. Возможно, данные вообще никогда не собирались или были собраны, но потеряны или повреждены. Выбросы —..

Вопросы по теме 'missing-data'

Элегантный способ сообщить об отсутствующих значениях в data.frame
Вот небольшой фрагмент кода, который я написал для сообщения о переменных с отсутствующими значениями из фрейма данных. Я пытаюсь придумать более элегантный способ сделать это, который, возможно, возвращает data.frame, но я застрял: for (Var in...
128707 просмотров
schedule 05.12.2023

Как создать пропущенные значения в таблице в R?
У меня есть 40 пар птиц, каждый самец и самка в паре оцениваются по окрасу. Цветовая оценка - это категориальная переменная с диапазоном значений от 1 до 9. Я хотел бы создать таблицу с номером каждой комбинации (1/1, 1/2, 1/3,... 9/7, 9 /8, 9/9)....
1600 просмотров
schedule 29.12.2023

Как получить показатели соответствия модели (AIC, F-статистика) в zelig для многократно вмененных данных?
В продолжение предыдущий пост , мне интересно узнать, как получить обычные показатели относительного качества статистической модели в zelig для регрессии с использованием данных с множественным вменением (созданных с помощью Amelia)....
1235 просмотров

Запрос перекрестной таблицы: получение нулевых данных для отсутствующих данных из базы данных Access
У меня есть данные в базе данных Access, которые содержат данные за несколько дней. Но иногда у него отсутствуют данные для некоторых дат. Например, у меня есть данные для myDate Location Price 11/1/2013 South 10...
1735 просмотров
schedule 12.12.2022

Pandas Dataframe: замена NaN средним значением строки
Я пытаюсь изучить панд, но я был озадачен следующим, пожалуйста. Я хочу заменить NaNs на фрейм данных со средним значением строки. Следовательно, что-то вроде df.fillna(df.mean(axis=1)) должно работать, но по какой-то причине мне это не удается....
17602 просмотров
schedule 12.04.2024

Изменить список с помощью linq через второй список
У меня есть 2 списка. Первый — это основной список, содержащий набор объектов, каждый из которых имеет отметку времени (Datetime), тип (int), значение (double) и флаг (int). Второй список имеет тип (int) и описание (string). Моя проблема в том,...
73 просмотров
schedule 12.12.2023

c# RijndaelУправляемое шифрование и дешифрование иногда дает сбой
Изменить: решено - проблема заключалась в функции расшифровки. Исправленную функцию расшифровки можно найти в ответе ниже. Я провел последний день на работе, пытаясь понять, где я ошибся с этой реализацией AES. Нам нужно иметь возможность...
875 просмотров

Вмените пропущенные значения со средним значением ROLLING в R
Я новичок в R и столкнулся с проблемой. Мне нужна функция для определения недостающих значений в векторе в соответствии со средним значением элементов в окне заданного размера. Однако это окно будет двигаться, потому что, скажем, мой NA...
2257 просмотров
schedule 22.12.2023

Сохраняющая положительность интерполяция временных рядов в R
У меня есть некоторые данные с пропущенными значениями, которые, как я знаю, положительны. Я пытаюсь интерполировать недостающие значения, используя na.interp из пакета forecast . Однако некоторые интерполированные значения оказываются...
246 просмотров

Добавить отсутствующие значения в таблицу частот в R
У меня есть список форматов >count_temp Week freq 1 00 1 2 01 1 3 02 1 4 03 1 5 10 1 6 12 2 7 14 1 В столбце «Неделя» отсутствуют некоторые данные (недели 4, 5, 6 и т. д.). Я...
121 просмотров
schedule 08.01.2024

R - вычислить разницу (меру сходства) между похожими наборами данных
Я видел много вопросов, которые касаются этой темы, но пока не нашел ответа. Если я пропустил вопрос, который действительно отвечает на этот вопрос, пожалуйста, отметьте это и укажите нам на вопрос. Сценарий: у нас есть эталонный набор данных, у...
546 просмотров

вставка отсутствующих полей в кадр данных pandas с дублированными индексами
У меня проблема, аналогичная link . Решения, похоже, не работают в моем конкретном случае. Я думаю, это из-за размера фреймов данных. У меня есть df размера (2 018 901 - 6) и список длиной 2 083 656. цель списка (как в ссылке выше) - вставить...
148 просмотров

Вставка NA для отсутствующего наблюдения во временном ряду для правильного линейного графика
У меня есть временные ряды для разных групп, например, где отсутствуют некоторые значения: library(tidyverse) df <- tribble( ~year, ~country, ~variable, #--|--|---- 2003, "USA", 44, 2004, "USA", 40, 2005, "USA", 30, # 2006 for USA...
363 просмотров
schedule 25.01.2024

Статистические модели: требуются массивы без NaN или Infs, но тест показывает, что NaN или Infs отсутствуют.
Я пытаюсь запустить ADF-тест из модуля adfuller statsmodels. Это дает мне ошибку: ValueError: array must not contain infs or NaNs С помощью другого вопроса я мог бы заменить свои NaN ( NaN во фрейме данных: когда первое наблюдение временного...
1640 просмотров
schedule 21.09.2022

Реализация MICE на питоне
Я пытаюсь использовать реализацию MICE, используя следующую ссылку: Вменение пропущенных значений в python с использованием KNN from fancyimpute import MICE as MICE df_complete=MICE().complete(df_train) Я получаю следующую ошибку:...
14975 просмотров
schedule 04.12.2022

Pandas: заполнение пропущенных значений, итерация по объекту groupby
У меня есть следующий набор данных: d = {'player': ['1', '1', '1', '1', '1', '1', '1', '1', '1', '2', '2', '2', '2', '2', '2', '3', '3', '3', '3', '3'], 'session': ['a', 'a', 'b', np.nan, 'b', 'c', 'c', 'c', 'c', 'd', 'd', 'e', 'e', np.nan, 'e',...
81 просмотров

Ввод дополнительных строк в кадр данных в качестве средних точек между значениями соседних существующих строк
Скажем, у вас есть следующий набор данных временных рядов в r: n <- 3 set.seed(1) df <- data.frame(Day = rep("Mon", n), Time = 1:n, Temper = round(rnorm(n, 4, 2), 0)) print(df) Day Time Temper Mon 1 3 Mon...
128 просмотров
schedule 30.11.2022

Как реализовать метод Imputation Maximization с использованием Python?
Из различных источников я узнал, что вменение с использованием метода максимизации ожидания лучше, чем вменение среднего значения для вменения отсутствующих данных . Но ни один источник не объяснил, как реализовать это на Python. Я просмотрел...
691 просмотров

Replmiss от метафора не работает - все еще есть NA
Я пытаюсь провести метаанализ с некоторыми отсутствующими данными, следуя этому примеру: http://www.metafor-project.org/doku.php/tips:assembling_data_smd?s[]=difference&s[]=means но команда replmiss не работает для меня, и я остаюсь с NA, поэтому...
32 просмотров
schedule 06.12.2023

Заполните отсутствующие значения в столбцах с учетом предыдущих значений в двух других столбцах Python
Как следует из названия, я хотел бы заполнить недостающие значения в столбце, но с учетом того, что у меня есть комбинация двух или трех других столбцов, в которых есть кортежи с выделенным значением. Пример: Set Plate Heat Salt 0 3...
24 просмотров
schedule 24.04.2024