Свързани публикации 'spark'


Не се отказвай, или ще те запаля
Проект за прогнозиране на оттеглянето на клиенти с PySpark Преглед Проектът е част от Capstone Project на Udacity Data Scientist Nanodegree . Един от най-често срещаните бизнес проблеми, прогнозирането на оттеглянето на клиенти е важна част от ролята на Data Scientist в бизнес и продуктова среда. Този проект попада в областта на музикалната индустрия и една от най-важните части на днешния свят на стрийминг е поддържането на клиентите привързани към бизнеса чрез предотвратяване на..

Извличане на именувани обекти
Извличане на именувани обекти В литературата има различни инструменти и техники за разпознаване на именувани обекти (NER). Сред тези java openNLP [1], standford nlp [2], spark johnsnowlab [3] са добри. Използвайте инструмента GATE [4], за да намерите този, който отговаря на вашия проблем. Опитах всички, за всяко предложение, пишете ми или оставете съобщение тук. Малка демонстрация за openNLP public void findName(String sentence) хвърля IOException { InputStream is = new..

3 метода за паралелизиране в Spark
3 метода за паралелизиране в Spark Мащабиране на задачи за наука за данни за скорост Spark е страхотен за увеличаване на задачите и работните натоварвания в областта на науката за данни! Докато използвате рамки с данни и библиотеки на Spark, които работят върху тези структури от данни, можете да мащабирате до масивни набори от данни, които се разпространяват в клъстер. Има обаче някои сценарии, при които библиотеките може да не са налични за работа с рамки от данни на Spark и са..

Първи стъпки с Jupyter + Spark в облака през 2020 г
Завъртете без усилие лаптоп, подкрепен от клъстер с големи данни 2020 г. е чудесна година да се потопите в големите данни с клъстерите Jupyter и Spark. Всички топ 3 облачни доставчици (Amazon Web Services, Microsoft Azure и Google Cloud) имат конфигурирани, управлявани услуги за завъртане на клъстери, предварително заредени с Jupyter и Spark. С експлозията на големите данни и ниските бариери за навлизане (както по отношение на разходите, така и на усилията), знанието как да се решават..

Анализатор на настроението в Twitter
Анализ на настроението в реално време с помощта на PySpark Този проект е анализ на поточно предаване в реално време с помощта на Apache Spark. Научих много от този проект (далеч от очакванията) и се запознах с нови инструменти като Apache Spark и неговия Python интерфейс. Научих и за Kafka, въпреки че не можах да го разположа в тази задача. Научих някои страхотни неща, използвайки API на Twitter (мога да се похваля с това с моите приятели, които не са CS). В този блог ще споделя моя..