Вопросы по теме 'sparklyr'
Как использовать sdf_pivot() в sparklyr и объединять строки?
Я пытаюсь использовать функцию sdf_pivot() в sparklyr, чтобы «собрать» кадр данных длинного формата в широкий формат. Значения переменных представляют собой строки, которые я хотел бы объединить.
Вот простой пример, который, я думаю, должен...
1046 просмотров
schedule
13.02.2024
ArrayIndexOutOfBoundsException при подгонке логистической регрессии Spark ML в R
Я пытаюсь подобрать модель логистической регрессии, используя sparklyr::ml_logistic_regression . Мой набор обучающих данных содержит 42 457 строк и 785 столбцов; ответ представляет собой целое число 0/1 в столбце label , а все остальные столбцы...
459 просмотров
schedule
17.02.2024
Предоставьте повернутые данные (оценки основных компонентов) после PCA в Sparklyr.
Я пытаюсь найти способ получить оценки ПК, полученные после чередования компонентов PCA, найденных с помощью ml_pca().
Компоненты PCA легко доступны с помощью $components, но результат матричного умножения входных данных на компоненты PCA не...
244 просмотров
schedule
13.04.2024
Sparklyr передает категориальные переменные
Sparklyr обрабатывает категориальные переменные
Я пришел из среды R и привык к тому, что категориальные переменные обрабатываются в бэкэнде (как фактор). В Sparklyr довольно сложно использовать string_indexer или onehotencoder .
Например, у...
896 просмотров
schedule
20.03.2024
Загрузить таблицы в SQL Server из SparklyR
Можно ли по состоянию на октябрь 2017 г. записывать фреймы данных Sparklyr Spark в SQL Server?
У меня такая ошибка:
> DBI::dbWriteTable(con, "DZ_test", for_test)
Error in (function (classes, fdef, mtable) :
unable to find an inherited...
702 просмотров
schedule
18.01.2024
Нужна ли мне локальная версия Spark при подключении к другому кластеру Spark через sparklyr?
У меня есть производственный кластер R с установленной Rstudio. Пользователи распределяют нагрузку на сервер R и пишут там код. У меня также есть отдельный кластер Spark с 4 узлами. Используя sparklyr, я могу легко подключиться к своему искровому...
33 просмотров
schedule
28.05.2024
Как мне собирать данные из sparklyr в блестящем реактивном контексте?
Я не могу собирать данные (скажем, для построения графика) из sparklyr (на удаленном искровом кластере) в контексте блестящего реактивного. Я могу запустить весь код вручную (скажем, в rstudio или в сеансе консоли r), и если я запускаю тот же...
438 просмотров
schedule
12.03.2024
Узнать, равны ли 2 таблицы (`tbl_spark`), не собирая их с помощью sparklyr
Учтите, что в spark есть 2 таблицы или ссылки на таблицы, которые вы хотите сравнить, например. чтобы убедиться, что ваша резервная копия работала правильно. Есть ли возможность сделать этот пульт в искре? Потому что бесполезно копировать все...
466 просмотров
schedule
28.02.2024
Sparklyr, spark_read_csv, нам нужно каждый раз повторно импортировать данные?
я использую sparklyr для чтения данных на моей локальной машине.
Что я сделал
spark_install()
config <- spark_config()
spark_dir = "C:/spark"
config$`sparklyr.shell.driver-java-options` <- paste0("-Djava.io.tmpdir=", spark_dir)...
180 просмотров
schedule
31.03.2024
Перевести функцию Spark SQL в обычный код R
Я пытаюсь следовать виньетке «Как создать цепь Маркова» ( http://datafeedtoolbox.com/attribution-theory-the-two-best-models-for-algorithmic-marketing-attribution-implemented-in-apache-spark-and-r/ ).
Этот учебник интересен, потому что он использует...
104 просмотров
schedule
17.10.2022
Как остановить Spark, не выходя из RStudio при использовании sparklyr?
Я могу легко остановить Spark, когда использую SparkR с помощью sparkR.stop(), как показано в блоке кода ниже:
library(SparkR)
sparkR.session(master = "local")
sparkR.conf(SPARK_HOME)
sparkR.stop()
detach("package:SparkR", unload=TRUE)
Как я...
809 просмотров
schedule
30.09.2022
Есть ли способ заполнить недостающие даты нулями с помощью dplyr?
У меня есть такой набор данных:
id date value
1 8/06/12 1
1 8/08/12 1
2 8/07/12 2
2 8/08/12 1
Каждый идентификатор должен иметь значение для каждой даты. Если в...
230 просмотров
schedule
19.11.2022
Существуют ли какие-либо аргументы sparklyr для возврата дополнительной информации журнала во время потоков, потребляющих темы kafka с R?
После того, как удалось установить соединение с kafka, при попытке использовать тему ничего не возвращается, и мне любопытно, можно ли передать какие-либо соответствующие аргументы, чтобы получить дополнительные журналы о том, что происходит. Над...
21 просмотров
schedule
25.11.2022
Альтернатива ``stringr::str_detect`` при работе в Spark
Я работал в RStudio на локальном устройстве пару лет и недавно начал работать со Spark (версия 3.0.1). Я столкнулся с неожиданной проблемой при попытке запустить stringr::str_detect() в Spark. По-видимому, str_detect() не имеет эквивалента в...
123 просмотров
schedule
05.10.2022
Как настроить Rstudio, sparklyR в кластере с автоматическим масштабированием, управляемом slurm?
У меня есть автоматически масштабируемый кластер aws HPC, управляемый slurm, я могу отправлять задания с помощью sbatch, однако я хочу использовать spraklyr в этом кластере, чтобы slurm увеличивал размер кластера в зависимости от рабочей нагрузки кода...
32 просмотров
schedule
07.05.2024