Вопросы по теме 'apache-spark-sql'

Вставка аналитических данных из Spark в Postgres
У меня есть база данных Cassandra, из которой я проанализировал данные с помощью SparkSQL через Apache Spark. Теперь я хочу вставить эти проанализированные данные в PostgreSQL. Есть ли какие-либо способы добиться этого напрямую, кроме использования...
7080 просмотров

Запрос Spark SQL DataFrame со сложными типами
Как я могу запросить RDD со сложными типами, такими как карты / массивы? например, когда я писал этот тестовый код: case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") val map2 =...
69579 просмотров

Spark не может найти драйвер JDBC
Итак, я использовал sbt со сборкой, чтобы упаковать все мои зависимости в одну банку для моих искровых заданий. У меня есть несколько заданий, на которых я использовал c3p0 для настройки информации о пуле соединений, транслировал ее, а затем...
56189 просмотров
schedule 29.10.2022

Добавить столбец агрегирования в фрейм данных Spark
У меня есть фрейм данных Spark, который выглядит так: | id | value | bin | |----+-------+-----| | 1 | 3.4 | 2 | | 2 | 2.6 | 1 | | 3 | 1.8 | 1 | | 4 | 9.6 | 2 | У меня есть функция f , которая принимает массив значений и...
2823 просмотров
schedule 22.12.2023

Spark SQL в режиме реального времени в Hive
На самом деле я спрашиваю себя о производительности использования Spark SQL с Hive для аналитики в реальном времени. Я знаю, что Hive был создан для пакетной обработки, а Spark используется для выполнения быстрых запросов. Но использование Spark...
1132 просмотров

Как вы распараллеливаете создание RDD/DataFrame в Spark?
Скажем, у меня есть искровая работа, которая выглядит следующим образом: def loadTable1() { val table1 = sqlContext.jsonFile(s"s3://textfiledirectory/") table1.cache().registerTempTable("table1") } def loadTable2() { val table2 =...
5988 просмотров

Elasticsearch + производительность Apache Spark
Я пытаюсь использовать Apache Spark для запроса моих данных в Elasticsearch, но моя искровая работа занимает около 20 часов, чтобы выполнить агрегацию, и она все еще выполняется. Такой же запрос в ES занимает около 6 секунд. Я понимаю, что данные...
2876 просмотров
schedule 24.11.2022

Исключение при отправке задания искры в кластере пряжи с удаленным jvm
Я использую приведенный ниже код Java для отправки задания на пряжу-кластер. public ApplicationId submitQuery(String requestId, String query,String fileLocations) { String driverJar = getDriverJar(); String driverClass =...
762 просмотров
schedule 28.02.2024

Spark - Создание вложенного фрейма данных
Я начинаю с PySpark, и у меня проблемы с созданием DataFrames с вложенными объектами. Это мой пример. У меня есть пользователи. $ cat user.json {"id":1,"name":"UserA"} {"id":2,"name":"UserB"} У пользователей есть заказы. $ cat...
14468 просмотров

В Apache Spark SQL: как закрыть соединение с хранилищем метаданных из HiveContext
В моем проекте есть модульные тесты для разных конфигураций HiveContext (иногда они находятся в одном файле, поскольку сгруппированы по функциям). После обновления до Spark 1.4 я сталкиваюсь с множеством проблем типа «java.sql.SQLException: другой...
1580 просмотров

Интерактивный поиск данных, хранящихся в Parquet, с помощью Apache Spark Streaming и Dataframes
У меня есть значительный объем данных, хранящихся на моей Hadoop HDFS в виде файлов Parquet. Я использую потоковую передачу Spark для интерактивного получения запросов с веб-сервера и преобразования полученных запросов в SQL для обработки моих данных...
628 просмотров

Как в SparkR 1.5.0 однозначно указать столбец после соединения с общим столбцом?
Я присоединил два фрейма данных к столбцу с одинаковым именем. oe = join(orders, emp, orders$EmployeeID == emp$EmployeeID) Результирующий фрейм данных имеет два столбца с одинаковыми именами EmployeeID Теперь группа по имени столбца или...
547 просмотров
schedule 15.09.2022

Невозможно выполнить запрос к таблице, созданной с помощью Spark, с помощью registerTempTable
Я выполнил ниже простой скрипт для создания временной таблицы в памяти с использованием контекста Spark SQL. import sys.process._ val sqlContext = new org.apache.spark.sql.SQLContext(sc) val zeppelinHome = ("pwd" !!).replace("\n","") val bankText...
905 просмотров
schedule 08.10.2022

com.mysql.jdbc.Driver не найден в пути к классам при запуске искрового sql и бережливого сервера
Я получаю следующие ошибки при запуске оболочки spark-sql. Но когда я запускаю оболочку с помощью команды, она работает ./spark-sql --jars /usr/local/hive/lib/mysql-connector-java.jar Но когда я запускаю комиссионный сервер таким же...
15243 просмотров

Ошибка предикатов PySpark jdbc: Py4JError: произошла ошибка при вызове o108.jdbc
Я пытаюсь использовать предикаты в своем Метод DataFrameReader.jdbc() : df = sqlContext.read.jdbc( url="jdbc:db2://bluemix05.bluforcloud.com:50001/BLUDB:user=****;password=****;sslConnection=true;", table="GOSALES.BRANCH",...
1546 просмотров

Spark groupby агрегации
Я пытаюсь сделать группу по агрегатам. Использование Spark 1.5.2 Подскажите, пожалуйста, почему это не работает. in - это фрейм данных. scala> in res28: org.apache.spark.sql.DataFrame = [id: int, city: string] scala> in.show...
996 просмотров
schedule 23.11.2023

Невозможно записать в файл parque с помощью fullSet.repartition(1).saveAsParquetFile(swift://notebooks.spark/tweetsFull.parquet)
Я пытаюсь создать приложение, используя искру apache, используя IBM bluemix. (Ссылка https://developer.ibm.com/clouddataservices/sentiment-analysis-of-twitter-hashtags/ ). Я использую потоковый API для потоковой передачи данных и успешно создал...
284 просмотров

как сделать обновление в таблице в spark-SQL?
Я хочу обновить одну строку в таблице, которая присутствует в spark-SQL, так как я могу это сделать. например, мой первоначальный запрос: Обновление от студенческих оценок = 56, где id = 1; Как это сделать в spark-SQL? Поскольку обновление не...
767 просмотров
schedule 28.10.2023

Проблема при попытке запросить таблицу кустов в формате csv через spark-sql. Может ли кто-нибудь объяснить причину?
Я получаю исключение "java.lang.ClassNotFoundException: com.bizo.hive.serde.csv.CSVSerde" при попытке запросить таблицу куста, имеющую свойства ROW FORMAT SERDE 'com.bizo.hive.serde.csv.CSVSerde' СОХРАНЕНО КАК INPUTFORMAT...
632 просмотров

Почему средство вывода createDataFrame не создает столбцы этих данных в виде строк?
Следующий код показывает, как создается dataFrame. Видно, что фрейм данных состоит из двух столбцов. В каждом столбце есть целые числа и строка в последней строке. Насколько я понимаю, createDataFrame должен анализировать типы данных столбцов...
425 просмотров