Вопросы по теме 'sparklyr'

Как использовать sdf_pivot() в sparklyr и объединять строки?
Я пытаюсь использовать функцию sdf_pivot() в sparklyr, чтобы «собрать» кадр данных длинного формата в широкий формат. Значения переменных представляют собой строки, которые я хотел бы объединить. Вот простой пример, который, я думаю, должен...
1046 просмотров
schedule 13.02.2024

ArrayIndexOutOfBoundsException при подгонке логистической регрессии Spark ML в R
Я пытаюсь подобрать модель логистической регрессии, используя sparklyr::ml_logistic_regression . Мой набор обучающих данных содержит 42 457 строк и 785 столбцов; ответ представляет собой целое число 0/1 в столбце label , а все остальные столбцы...
459 просмотров
schedule 17.02.2024

Предоставьте повернутые данные (оценки основных компонентов) после PCA в Sparklyr.
Я пытаюсь найти способ получить оценки ПК, полученные после чередования компонентов PCA, найденных с помощью ml_pca(). Компоненты PCA легко доступны с помощью $components, но результат матричного умножения входных данных на компоненты PCA не...
244 просмотров
schedule 13.04.2024

Sparklyr передает категориальные переменные
Sparklyr обрабатывает категориальные переменные Я пришел из среды R и привык к тому, что категориальные переменные обрабатываются в бэкэнде (как фактор). В Sparklyr довольно сложно использовать string_indexer или onehotencoder . Например, у...
896 просмотров
schedule 20.03.2024

Загрузить таблицы в SQL Server из SparklyR
Можно ли по состоянию на октябрь 2017 г. записывать фреймы данных Sparklyr Spark в SQL Server? У меня такая ошибка: > DBI::dbWriteTable(con, "DZ_test", for_test) Error in (function (classes, fdef, mtable) : unable to find an inherited...
702 просмотров
schedule 18.01.2024

Нужна ли мне локальная версия Spark при подключении к другому кластеру Spark через sparklyr?
У меня есть производственный кластер R с установленной Rstudio. Пользователи распределяют нагрузку на сервер R и пишут там код. У меня также есть отдельный кластер Spark с 4 узлами. Используя sparklyr, я могу легко подключиться к своему искровому...
33 просмотров
schedule 28.05.2024

Как мне собирать данные из sparklyr в блестящем реактивном контексте?
Я не могу собирать данные (скажем, для построения графика) из sparklyr (на удаленном искровом кластере) в контексте блестящего реактивного. Я могу запустить весь код вручную (скажем, в rstudio или в сеансе консоли r), и если я запускаю тот же...
438 просмотров
schedule 12.03.2024

Узнать, равны ли 2 таблицы (`tbl_spark`), не собирая их с помощью sparklyr
Учтите, что в spark есть 2 таблицы или ссылки на таблицы, которые вы хотите сравнить, например. чтобы убедиться, что ваша резервная копия работала правильно. Есть ли возможность сделать этот пульт в искре? Потому что бесполезно копировать все...
466 просмотров
schedule 28.02.2024

Sparklyr, spark_read_csv, нам нужно каждый раз повторно импортировать данные?
я использую sparklyr для чтения данных на моей локальной машине. Что я сделал spark_install() config <- spark_config() spark_dir = "C:/spark" config$`sparklyr.shell.driver-java-options` <- paste0("-Djava.io.tmpdir=", spark_dir)...
180 просмотров
schedule 31.03.2024

Перевести функцию Spark SQL в обычный код R
Я пытаюсь следовать виньетке «Как создать цепь Маркова» ( http://datafeedtoolbox.com/attribution-theory-the-two-best-models-for-algorithmic-marketing-attribution-implemented-in-apache-spark-and-r/ ). Этот учебник интересен, потому что он использует...
104 просмотров
schedule 17.10.2022

Как остановить Spark, не выходя из RStudio при использовании sparklyr?
Я могу легко остановить Spark, когда использую SparkR с помощью sparkR.stop(), как показано в блоке кода ниже: library(SparkR) sparkR.session(master = "local") sparkR.conf(SPARK_HOME) sparkR.stop() detach("package:SparkR", unload=TRUE) Как я...
809 просмотров
schedule 30.09.2022

Есть ли способ заполнить недостающие даты нулями с помощью dplyr?
У меня есть такой набор данных: id date value 1 8/06/12 1 1 8/08/12 1 2 8/07/12 2 2 8/08/12 1 Каждый идентификатор должен иметь значение для каждой даты. Если в...
230 просмотров
schedule 19.11.2022

Существуют ли какие-либо аргументы sparklyr для возврата дополнительной информации журнала во время потоков, потребляющих темы kafka с R?
После того, как удалось установить соединение с kafka, при попытке использовать тему ничего не возвращается, и мне любопытно, можно ли передать какие-либо соответствующие аргументы, чтобы получить дополнительные журналы о том, что происходит. Над...
21 просмотров
schedule 25.11.2022

Альтернатива ``stringr::str_detect`` при работе в Spark
Я работал в RStudio на локальном устройстве пару лет и недавно начал работать со Spark (версия 3.0.1). Я столкнулся с неожиданной проблемой при попытке запустить stringr::str_detect() в Spark. По-видимому, str_detect() не имеет эквивалента в...
123 просмотров
schedule 05.10.2022

Как настроить Rstudio, sparklyR в кластере с автоматическим масштабированием, управляемом slurm?
У меня есть автоматически масштабируемый кластер aws HPC, управляемый slurm, я могу отправлять задания с помощью sbatch, однако я хочу использовать spraklyr в этом кластере, чтобы slurm увеличивал размер кластера в зависимости от рабочей нагрузки кода...
32 просмотров
schedule 07.05.2024