Публикации по тематике spark

Публикации по теме 'spark'

Пошаговая настройка кластера Spark за 10 минут

Это список действий для установки мастера (или драйвера) Spark с открытым исходным кодом и рабочего процесса в локальном Ubuntu совершенно бесплатно. (в отличие от Databricks за $$$) Следующая установка выполняется в домашней интрасети. На одной физической машине Linux (Ubuntu) ( Jetson Nano ) и одной WSL2 (Ubuntu) внутри Windows 10. Шаг 1. Подготовьте среду Убедитесь, что у вас установлена Java sudo apt install openjdk-8-jdk Проверьте, установлена ли у вас Java java..

Как использовать SingleStore со Spark ML для обнаружения мошенничества — 2/3

Загрузить данные кредитной карты в SingleStore Абстрактный В первой части этой серии статей по обнаружению мошенничества мы создали и настроили кластер Databricks CE. Во второй статье мы загрузим данные кредитной карты в нашу среду Spark. Мы также сравним производительность SingleStore Spark Connector с JDBC для загрузки наших данных в SingleStore из Spark. Файлы записных книжек, использованные в этой серии статей, доступны на GitHub в форматах DBC, HTML и iPython ...

Вот как вы можете построить модель прогнозирования оттока с помощью Apache Spark

Комплексное руководство по созданию конвейера прогнозирования оттока с использованием только Apache Spark. Эта статья представляет собой руководство по созданию классификатора прогнозирования оттока с использованием стека машинного обучения из Spark . Мы будем использовать данные от вымышленной компании под названием Sparkify , занимающейся потоковой передачей музыки. Набор данных содержит все виды событий, созданных пользователями, которые взаимодействовали с платформой...

Как я развернул модель / модели классификации искровых документов (логистическая регрессия) в качестве отдельного приложения…

TL; DR - используйте конвейеры для сохранения модели TF-IDF, сгенерированной из обучающего набора, и модели SVM для прогнозирования. Так что по сути сохраните две модели: одну для извлечения признаков и преобразования входных данных, а другую для прогнозирования. Одна из больших проблем при разработке модели классификации текста - обученной модели, которую вы получаете, недостаточно для прогнозирования, если вы планируете обучаться в автономном режиме и в некоторых случаях развертывать..

Как мне устранить ошибку сериализации Spark?

История заключается в том, что когда я пытаюсь решить проблему с большими данными в нашем задании Spark, которое собирало все данные в узел драйвера вместо того, чтобы получать и обрабатывать данные в каждом разделе, а затем получило ошибку сериализации org.apache.spark.SparkException: Task not serializable Первое, что я сделал, — это попытался найти соответствующую информацию об этой ошибке на Stack Overflow, Medium и т. д. К счастью, я получил несколько советов, (ссылки в приложении) ,..

Веб-семинар: использование Apache Spark с Amazon SageMaker

Недавно я имел удовольствие выступить с этим онлайн-докладом о сочетании двух моих любимых инструментов: Spark для ETL и SageMaker для машинного обучения :) Если вы хотите запустить эти примеры, вы найдете код и дополнительную информацию в этом сообщении блога. Apache Spark и Amazon SageMaker, жемчужины аналитики В предыдущем посте я показал вам, как создать классификатор спама, запустив PySpark на ноутбуке Amazon SageMaker… medium.com..