Вопросы по теме 'apache-spark-ml'

Как справиться с категоричными особенностями с помощью spark-ml?
Как обрабатывать категориальные данные с помощью spark-ml , а не spark-mllib ? Думал, что документация не очень ясна, кажется, что классификаторы, например. RandomForestClassifier , LogisticRegression , имеют аргумент featuresCol ,...
52713 просмотров

Настройка формулы расстояния K-средних в Apache Spark Python
Теперь я использую K-means для кластеризации и следую этому руководству и API . Но я хочу использовать пользовательскую формулу для расчета расстояний. Итак, как я могу передать пользовательские функции расстояния в k-средних с помощью PySpark?
4390 просмотров

В SparkALS означает ли «Количество функций» также «Количество факторов»?
Я работаю над ранней версией Spark ( alpha-0.1 ), чтобы понять, как это началось и как это развивалось. Я также пытаюсь понять, как работает чередование наименьших квадратов. Я просматриваю пример SparkALS и вижу следующие переменные: var M...
40 просмотров

Преобразование модели Scala Spark возвращает все нули
Доброго времени суток всем. Для начала я выполняю простую задачу машинного обучения с apache-spark ml (не mllib) и scala. Мой build.sbt выглядит следующим образом: name := "spark" version := "1.0" scalaVersion := "2.11.11" libraryDependencies +=...
354 просмотров

Sparklyr передает категориальные переменные
Sparklyr обрабатывает категориальные переменные Я пришел из среды R и привык к тому, что категориальные переменные обрабатываются в бэкэнде (как фактор). В Sparklyr довольно сложно использовать string_indexer или onehotencoder . Например, у...
896 просмотров
schedule 20.03.2024

Как правильно распараллелить задание pyspark на нескольких узлах и избежать проблем с памятью?
В настоящее время я работаю над заданием PySpark (Spark 2.2.0), которое предназначено для обучения модели скрытого распределения Дирихле на основе набора документов. Входные документы предоставляются в виде файла CSV, расположенного в Google Cloud...
537 просмотров

Извлечение результатов из CrossValidator с помощью paramGrid в pySpark
Я тренирую случайный лес с помощью pySpark. Я хочу получить csv с результатами на каждую точку в сетке. Мой код: estimator = RandomForestRegressor() evaluator = RegressionEvaluator() paramGrid = ParamGridBuilder().addGrid(estimator.numTrees,...
2932 просмотров

Обучение моделей мл на искре по разделам. Так что будет обученная модель для каждого раздела фрейма данных
Как провести параллельное обучение модели для каждого раздела в spark с помощью scala? Приведенное здесь решение находится в Pyspark. Я ищу решение в scala. Как вы можете эффективно построить одну модель машинного обучения для каждого раздела в...
118 просмотров
schedule 13.06.2024

StandardScaler возвращает значения NaN
Я пытаюсь построить модель линейной регрессии, используя Pyspark и MLib для прогнозирования цены закрытия акций. Схема показана ниже. root |-- Date: timestamp (nullable = true) |-- Open: double (nullable = true) |-- High: double (nullable =...
89 просмотров

Загрузите модель Pyspark.ml из S3 с помощью Pipeline
Я пытаюсь сохранить обученную модель в хранилище S3, а затем пытаюсь загрузить и спрогнозировать эту модель с помощью пакета Pipeline из pyspark.ml. Вот пример того, как я сохраняю свою модель. #stage_1 to stage_4 are some basic trasnformation on...
310 просмотров

NoSuchMethodException: org.apache.spark.ml.classification.GBTClassificationModel в загрузке модели Pyspark
Я обучил модель в pyspark ##Model gbt = GBTClassifier(maxIter=10) gbtModel = gbt.fit(train) predictions = gbtModel.transform(test) Здесь я сохраняю пайплайн и модель #Save pipeline...
119 просмотров
schedule 06.12.2022