Публикации по темата spark

Свързани публикации 'spark'

Настройте клъстер Spark стъпка по стъпка за 10 минути

Това е списък с действия за инсталиране на Spark master (или драйвер) с отворен код и worker в локален Ubuntu напълно безплатно. (за разлика от Databricks за $$$) Следната настройка се изпълнява в домашен интранет. На една физическа машина с Linux (Ubuntu) ( Jetson Nano ) и една WSL2 (Ubuntu) в Windows 10. Стъпка 1. Подгответе среда Уверете се, че имате инсталирана Java sudo apt install openjdk-8-jdk Проверете дали сте инсталирали Java java -version Ако ще използвате..

Как да използвате SingleStore със Spark ML за откриване на измами — 2/3

Заредете данните за кредитната карта в SingleStore Резюме В първата част от тази поредица за откриване на измами създадохме и конфигурирахме Databricks CE клъстер. В тази втора статия ще заредим данни за кредитни карти в нашата среда на Spark. Също така ще сравним ефективността на SingleStore Spark Connector с JDBC за зареждане на нашите данни в SingleStore от Spark. Файловете на бележника, използвани в тази поредица от статии, са налични в GitHub във формати DBC, HTML и..

Ето как можете да изградите модел за прогнозиране на отлив с помощта на Apache Spark

Урок от край до край за това как да изградите конвейер за прогнозиране на отлив, като използвате само Apache Spark. Тази статия е урок за това как да изградите класификатор за прогнозиране на отлив с помощта на ML стека от Spark . Ще използваме данни от фиктивна компания , наречена Sparkify , компания за стрийминг на музика. Наборът от данни съдържа всички видове събития, създадени от потребителите, които са взаимодействали с платформата. Ще разгледаме по-подробно данните..

Как внедрих моя модел/и за класификация на документи на искра (логистична регресия) като самостоятелно приложение...

TLDR — Използвайте тръбопроводи за запазване на TF-IDF модел, генериран от набора за обучение, и SVM модел за прогнозиране. Така че по същество запазете два модела, единият за извличане на функции и трансформация на входа, а другият за прогнозиране. Едно от големите предизвикателства, когато разработвате модел за класификация на текст, обученият модел, който получавате, не е достатъчен за прогнозиране, ако вашият план е бил да тренирате офлайн и да разгърнете само модела за прогнозиране в..

Как постъпих, за да разреша грешката на Spark Serialization?

Историята е, когато се опитвам да разреша проблема с големите данни в нашата работа на Spark, която събираше всички данни към възела на драйвера, вместо да получава и обработва данни на всеки дял сега, след което получи грешка при сериализиране org.apache.spark.SparkException: Task not serializable Първото нещо, което направих, е да се опитам да намеря подходяща информация за тази грешка в Stack Overflow, Medium и т.н. ... За щастие получих някои съвети (препратки в приложението) , за..

Препоръчители | Част I

Генериране на кандидати с Spark 3 и TensorFlow 2 Поздрави хора! Днес ще проектираме препоръчителна система в Python. Ще използваме набор от данни за оценки на луксозни продукти в Amazon. Нашата архитектура ще имитира тази на препоръчителя на двойна невронна мрежа, предложен от YouTube „тук“. По време на упражнението ще се стремя да имитирам атрибутите на производствено внедряване и следователно ще използвам здравословна доза облачни изчисления за съхранение, обработка на данни и..

Уебинар: използване на Apache Spark с Amazon SageMaker

Наскоро имах удоволствието да изнеса този онлайн технологичен разговор за комбинирането на два от любимите ми инструменти: Spark за ETL и SageMaker за машинно обучение :) Ако искате да изпълните тези примери, ще намерите код и допълнителна информация в тази публикация в блога. Apache Spark и Amazon SageMaker, Infinity Gems на анализа В предишна публикация ви показах как да създадете класификатор на нежелана поща, като стартирате PySpark на преносим компютър..