Вопросы по теме 'apache-spark-ml'
Как справиться с категоричными особенностями с помощью spark-ml?
Как обрабатывать категориальные данные с помощью spark-ml , а не spark-mllib ?
Думал, что документация не очень ясна, кажется, что классификаторы, например. RandomForestClassifier , LogisticRegression , имеют аргумент featuresCol ,...
52713 просмотров
schedule
29.03.2024
Настройка формулы расстояния K-средних в Apache Spark Python
Теперь я использую K-means для кластеризации и следую этому руководству и API .
Но я хочу использовать пользовательскую формулу для расчета расстояний. Итак, как я могу передать пользовательские функции расстояния в k-средних с помощью PySpark?
4390 просмотров
schedule
05.01.2024
В SparkALS означает ли «Количество функций» также «Количество факторов»?
Я работаю над ранней версией Spark ( alpha-0.1 ), чтобы понять, как это началось и как это развивалось. Я также пытаюсь понять, как работает чередование наименьших квадратов.
Я просматриваю пример SparkALS и вижу следующие переменные:
var M...
40 просмотров
schedule
03.01.2024
Преобразование модели Scala Spark возвращает все нули
Доброго времени суток всем. Для начала я выполняю простую задачу машинного обучения с apache-spark ml (не mllib) и scala. Мой build.sbt выглядит следующим образом:
name := "spark"
version := "1.0"
scalaVersion := "2.11.11"
libraryDependencies +=...
354 просмотров
schedule
12.11.2023
Sparklyr передает категориальные переменные
Sparklyr обрабатывает категориальные переменные
Я пришел из среды R и привык к тому, что категориальные переменные обрабатываются в бэкэнде (как фактор). В Sparklyr довольно сложно использовать string_indexer или onehotencoder .
Например, у...
896 просмотров
schedule
20.03.2024
Как правильно распараллелить задание pyspark на нескольких узлах и избежать проблем с памятью?
В настоящее время я работаю над заданием PySpark (Spark 2.2.0), которое предназначено для обучения модели скрытого распределения Дирихле на основе набора документов. Входные документы предоставляются в виде файла CSV, расположенного в Google Cloud...
537 просмотров
schedule
12.10.2022
Извлечение результатов из CrossValidator с помощью paramGrid в pySpark
Я тренирую случайный лес с помощью pySpark. Я хочу получить csv с результатами на каждую точку в сетке. Мой код:
estimator = RandomForestRegressor()
evaluator = RegressionEvaluator()
paramGrid = ParamGridBuilder().addGrid(estimator.numTrees,...
2932 просмотров
schedule
23.12.2023
Обучение моделей мл на искре по разделам. Так что будет обученная модель для каждого раздела фрейма данных
Как провести параллельное обучение модели для каждого раздела в spark с помощью scala? Приведенное здесь решение находится в Pyspark. Я ищу решение в scala. Как вы можете эффективно построить одну модель машинного обучения для каждого раздела в...
118 просмотров
schedule
13.06.2024
StandardScaler возвращает значения NaN
Я пытаюсь построить модель линейной регрессии, используя Pyspark и MLib для прогнозирования цены закрытия акций. Схема показана ниже.
root
|-- Date: timestamp (nullable = true)
|-- Open: double (nullable = true)
|-- High: double (nullable =...
89 просмотров
schedule
04.11.2023
Загрузите модель Pyspark.ml из S3 с помощью Pipeline
Я пытаюсь сохранить обученную модель в хранилище S3, а затем пытаюсь загрузить и спрогнозировать эту модель с помощью пакета Pipeline из pyspark.ml. Вот пример того, как я сохраняю свою модель.
#stage_1 to stage_4 are some basic trasnformation on...
310 просмотров
schedule
07.04.2024
NoSuchMethodException: org.apache.spark.ml.classification.GBTClassificationModel в загрузке модели Pyspark
Я обучил модель в pyspark
##Model
gbt = GBTClassifier(maxIter=10)
gbtModel = gbt.fit(train)
predictions = gbtModel.transform(test)
Здесь я сохраняю пайплайн и модель
#Save pipeline...
119 просмотров
schedule
06.12.2022