Публикации по тематике apache-spark-sql

Вопросы по теме 'apache-spark-sql'

Вставка аналитических данных из Spark в Postgres

У меня есть база данных Cassandra, из которой я проанализировал данные с помощью SparkSQL через Apache Spark. Теперь я хочу вставить эти проанализированные данные в PostgreSQL. Есть ли какие-либо способы добиться этого напрямую, кроме использования...

7080 просмотров

26.02.2024

Запрос Spark SQL DataFrame со сложными типами

Как я могу запросить RDD со сложными типами, такими как карты / массивы? например, когда я писал этот тестовый код: case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") val map2 =...

69579 просмотров

sql apache-spark dataframe apache-spark-sql scala

05.11.2022

Spark не может найти драйвер JDBC

Итак, я использовал sbt со сборкой, чтобы упаковать все мои зависимости в одну банку для моих искровых заданий. У меня есть несколько заданий, на которых я использовал c3p0 для настройки информации о пуле соединений, транслировал ее, а затем...

56189 просмотров

apache-spark apache-spark-sql jdbc

29.10.2022

Добавить столбец агрегирования в фрейм данных Spark

У меня есть фрейм данных Spark, который выглядит так: | id | value | bin | |----+-------+-----| | 1 | 3.4 | 2 | | 2 | 2.6 | 1 | | 3 | 1.8 | 1 | | 4 | 9.6 | 2 | У меня есть функция f , которая принимает массив значений и...

2823 просмотров

apache-spark pyspark apache-spark-sql

22.12.2023

Spark SQL в режиме реального времени в Hive

На самом деле я спрашиваю себя о производительности использования Spark SQL с Hive для аналитики в реальном времени. Я знаю, что Hive был создан для пакетной обработки, а Spark используется для выполнения быстрых запросов. Но использование Spark...

1132 просмотров

apache-spark hadoop hdfs apache-spark-sql hive

11.12.2023

Как вы распараллеливаете создание RDD/DataFrame в Spark?

Скажем, у меня есть искровая работа, которая выглядит следующим образом: def loadTable1() { val table1 = sqlContext.jsonFile(s"s3://textfiledirectory/") table1.cache().registerTempTable("table1") } def loadTable2() { val table2 =...

5988 просмотров

apache-spark apache-spark-sql scala parallel-processing

25.09.2022

Elasticsearch + производительность Apache Spark

Я пытаюсь использовать Apache Spark для запроса моих данных в Elasticsearch, но моя искровая работа занимает около 20 часов, чтобы выполнить агрегацию, и она все еще выполняется. Такой же запрос в ES занимает около 6 секунд. Я понимаю, что данные...

2876 просмотров

apache-spark apache-spark-sql

24.11.2022

Исключение при отправке задания искры в кластере пряжи с удаленным jvm

Я использую приведенный ниже код Java для отправки задания на пряжу-кластер. public ApplicationId submitQuery(String requestId, String query,String fileLocations) { String driverJar = getDriverJar(); String driverClass =...

762 просмотров

apache-spark apache-spark-sql yarn

28.02.2024

Spark - Создание вложенного фрейма данных

Я начинаю с PySpark, и у меня проблемы с созданием DataFrames с вложенными объектами. Это мой пример. У меня есть пользователи. $ cat user.json {"id":1,"name":"UserA"} {"id":2,"name":"UserB"} У пользователей есть заказы. $ cat...

14468 просмотров

python apache-spark pyspark dataframe apache-spark-sql

05.12.2022

В Apache Spark SQL: как закрыть соединение с хранилищем метаданных из HiveContext

В моем проекте есть модульные тесты для разных конфигураций HiveContext (иногда они находятся в одном файле, поскольку сгруппированы по функциям). После обновления до Spark 1.4 я сталкиваюсь с множеством проблем типа «java.sql.SQLException: другой...

1580 просмотров

apache-spark apache-spark-sql thrift apache-spark-1.4

02.06.2024

Интерактивный поиск данных, хранящихся в Parquet, с помощью Apache Spark Streaming и Dataframes

У меня есть значительный объем данных, хранящихся на моей Hadoop HDFS в виде файлов Parquet. Я использую потоковую передачу Spark для интерактивного получения запросов с веб-сервера и преобразования полученных запросов в SQL для обработки моих данных...

628 просмотров

parquet apache-spark hadoop apache-spark-sql spark-streaming

22.11.2023

Как в SparkR 1.5.0 однозначно указать столбец после соединения с общим столбцом?

Я присоединил два фрейма данных к столбцу с одинаковым именем. oe = join(orders, emp, orders$EmployeeID == emp$EmployeeID) Результирующий фрейм данных имеет два столбца с одинаковыми именами EmployeeID Теперь группа по имени столбца или...

547 просмотров

r apache-spark apache-spark-sql sparkr

15.09.2022

Невозможно выполнить запрос к таблице, созданной с помощью Spark, с помощью registerTempTable

Я выполнил ниже простой скрипт для создания временной таблицы в памяти с использованием контекста Spark SQL. import sys.process._ val sqlContext = new org.apache.spark.sql.SQLContext(sc) val zeppelinHome = ("pwd" !!).replace("\n","") val bankText...

905 просмотров

apache-spark apache-spark-sql

08.10.2022

com.mysql.jdbc.Driver не найден в пути к классам при запуске искрового sql и бережливого сервера

Я получаю следующие ошибки при запуске оболочки spark-sql. Но когда я запускаю оболочку с помощью команды, она работает ./spark-sql --jars /usr/local/hive/lib/mysql-connector-java.jar Но когда я запускаю комиссионный сервер таким же...

15243 просмотров

mysql apache-spark apache-spark-sql hive mysql-connector

28.10.2022

Ошибка предикатов PySpark jdbc: Py4JError: произошла ошибка при вызове o108.jdbc

Я пытаюсь использовать предикаты в своем Метод DataFrameReader.jdbc() : df = sqlContext.read.jdbc( url="jdbc:db2://bluemix05.bluforcloud.com:50001/BLUDB:user=****;password=****;sslConnection=true;", table="GOSALES.BRANCH",...

1546 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

19.09.2022

Spark groupby агрегации

Я пытаюсь сделать группу по агрегатам. Использование Spark 1.5.2 Подскажите, пожалуйста, почему это не работает. in - это фрейм данных. scala> in res28: org.apache.spark.sql.DataFrame = [id: int, city: string] scala> in.show...

996 просмотров

apache-spark apache-spark-sql scala

23.11.2023

Невозможно записать в файл parque с помощью fullSet.repartition(1).saveAsParquetFile(swift://notebooks.spark/tweetsFull.parquet)

Я пытаюсь создать приложение, используя искру apache, используя IBM bluemix. (Ссылка https://developer.ibm.com/clouddataservices/sentiment-analysis-of-twitter-hashtags/ ). Я использую потоковый API для потоковой передачи данных и успешно создал...

284 просмотров

ibm-cloud apache-spark apache-spark-sql spark-streaming scala

28.04.2024

как сделать обновление в таблице в spark-SQL?

Я хочу обновить одну строку в таблице, которая присутствует в spark-SQL, так как я могу это сделать. например, мой первоначальный запрос: Обновление от студенческих оценок = 56, где id = 1; Как это сделать в spark-SQL? Поскольку обновление не...

767 просмотров

apache-spark-sql hiveql

28.10.2023

Проблема при попытке запросить таблицу кустов в формате csv через spark-sql. Может ли кто-нибудь объяснить причину?

Я получаю исключение "java.lang.ClassNotFoundException: com.bizo.hive.serde.csv.CSVSerde" при попытке запросить таблицу куста, имеющую свойства ROW FORMAT SERDE 'com.bizo.hive.serde.csv.CSVSerde' СОХРАНЕНО КАК INPUTFORMAT...

632 просмотров

csv apache-spark hadoop apache-spark-sql spark-streaming

18.12.2023

Почему средство вывода createDataFrame не создает столбцы этих данных в виде строк?

Следующий код показывает, как создается dataFrame. Видно, что фрейм данных состоит из двух столбцов. В каждом столбце есть целые числа и строка в последней строке. Насколько я понимаю, createDataFrame должен анализировать типы данных столбцов...

425 просмотров

python apache-spark pyspark apache-spark-sql

18.09.2022

Вопросы по теме 'apache-spark-sql'

Похожие вопросы