Свързани публикации 'spark'
Настройте клъстер Spark стъпка по стъпка за 10 минути
Това е списък с действия за инсталиране на Spark master (или драйвер) с отворен код и worker в локален Ubuntu напълно безплатно. (за разлика от Databricks за $$$)
Следната настройка се изпълнява в домашен интранет. На една физическа машина с Linux (Ubuntu) ( Jetson Nano ) и една WSL2 (Ubuntu) в Windows 10.
Стъпка 1. Подгответе среда
Уверете се, че имате инсталирана Java
sudo apt install openjdk-8-jdk
Проверете дали сте инсталирали Java
java -version
Ако ще използвате..
Как да използвате SingleStore със Spark ML за откриване на измами — 2/3
Заредете данните за кредитната карта в SingleStore
Резюме
В първата част от тази поредица за откриване на измами създадохме и конфигурирахме Databricks CE клъстер. В тази втора статия ще заредим данни за кредитни карти в нашата среда на Spark. Също така ще сравним ефективността на SingleStore Spark Connector с JDBC за зареждане на нашите данни в SingleStore от Spark.
Файловете на бележника, използвани в тази поредица от статии, са налични в GitHub във формати DBC, HTML и..
Ето как можете да изградите модел за прогнозиране на отлив с помощта на Apache Spark
Урок от край до край за това как да изградите конвейер за прогнозиране на отлив, като използвате само Apache Spark.
Тази статия е урок за това как да изградите класификатор за прогнозиране на отлив с помощта на ML стека от Spark .
Ще използваме данни от фиктивна компания , наречена Sparkify , компания за стрийминг на музика. Наборът от данни съдържа всички видове събития, създадени от потребителите, които са взаимодействали с платформата.
Ще разгледаме по-подробно данните..
Как внедрих моя модел/и за класификация на документи на искра (логистична регресия) като самостоятелно приложение...
TLDR — Използвайте тръбопроводи за запазване на TF-IDF модел, генериран от набора за обучение, и SVM модел за прогнозиране. Така че по същество запазете два модела, единият за извличане на функции и трансформация на входа, а другият за прогнозиране.
Едно от големите предизвикателства, когато разработвате модел за класификация на текст, обученият модел, който получавате, не е достатъчен за прогнозиране, ако вашият план е бил да тренирате офлайн и да разгърнете само модела за прогнозиране в..
Как постъпих, за да разреша грешката на Spark Serialization?
Историята е, когато се опитвам да разреша проблема с големите данни в нашата работа на Spark, която събираше всички данни към възела на драйвера, вместо да получава и обработва данни на всеки дял сега, след което получи грешка при сериализиране
org.apache.spark.SparkException: Task not serializable
Първото нещо, което направих, е да се опитам да намеря подходяща информация за тази грешка в Stack Overflow, Medium и т.н. ... За щастие получих някои съвети (препратки в приложението) , за..
Препоръчители | Част I
Генериране на кандидати с Spark 3 и TensorFlow 2
Поздрави хора! Днес ще проектираме препоръчителна система в Python. Ще използваме набор от данни за оценки на луксозни продукти в Amazon. Нашата архитектура ще имитира тази на препоръчителя на двойна невронна мрежа, предложен от YouTube „тук“.
По време на упражнението ще се стремя да имитирам атрибутите на производствено внедряване и следователно ще използвам здравословна доза облачни изчисления за съхранение, обработка на данни и..
Уебинар: използване на Apache Spark с Amazon SageMaker
Наскоро имах удоволствието да изнеса този онлайн технологичен разговор за комбинирането на два от любимите ми инструменти: Spark за ETL и SageMaker за машинно обучение :)
Ако искате да изпълните тези примери, ще намерите код и допълнителна информация в тази публикация в блога.
Apache Spark и Amazon SageMaker, Infinity Gems на анализа В предишна публикация ви показах как да създадете класификатор на нежелана поща, като стартирате PySpark на преносим компютър..