Вопросы по теме 'apache-spark-sql'
Вставка аналитических данных из Spark в Postgres
У меня есть база данных Cassandra, из которой я проанализировал данные с помощью SparkSQL через Apache Spark. Теперь я хочу вставить эти проанализированные данные в PostgreSQL. Есть ли какие-либо способы добиться этого напрямую, кроме использования...
7080 просмотров
schedule
26.02.2024
Запрос Spark SQL DataFrame со сложными типами
Как я могу запросить RDD со сложными типами, такими как карты / массивы? например, когда я писал этот тестовый код:
case class Test(name: String, map: Map[String, String])
val map = Map("hello" -> "world", "hey" -> "there")
val map2 =...
69579 просмотров
schedule
05.11.2022
Spark не может найти драйвер JDBC
Итак, я использовал sbt со сборкой, чтобы упаковать все мои зависимости в одну банку для моих искровых заданий. У меня есть несколько заданий, на которых я использовал c3p0 для настройки информации о пуле соединений, транслировал ее, а затем...
56189 просмотров
schedule
29.10.2022
Добавить столбец агрегирования в фрейм данных Spark
У меня есть фрейм данных Spark, который выглядит так:
| id | value | bin |
|----+-------+-----|
| 1 | 3.4 | 2 |
| 2 | 2.6 | 1 |
| 3 | 1.8 | 1 |
| 4 | 9.6 | 2 |
У меня есть функция f , которая принимает массив значений и...
2823 просмотров
schedule
22.12.2023
Spark SQL в режиме реального времени в Hive
На самом деле я спрашиваю себя о производительности использования Spark SQL с Hive для аналитики в реальном времени. Я знаю, что Hive был создан для пакетной обработки, а Spark используется для выполнения быстрых запросов.
Но использование Spark...
1132 просмотров
schedule
11.12.2023
Как вы распараллеливаете создание RDD/DataFrame в Spark?
Скажем, у меня есть искровая работа, которая выглядит следующим образом:
def loadTable1() {
val table1 = sqlContext.jsonFile(s"s3://textfiledirectory/")
table1.cache().registerTempTable("table1")
}
def loadTable2() {
val table2 =...
5988 просмотров
schedule
25.09.2022
Elasticsearch + производительность Apache Spark
Я пытаюсь использовать Apache Spark для запроса моих данных в Elasticsearch, но моя искровая работа занимает около 20 часов, чтобы выполнить агрегацию, и она все еще выполняется. Такой же запрос в ES занимает около 6 секунд.
Я понимаю, что данные...
2876 просмотров
schedule
24.11.2022
Исключение при отправке задания искры в кластере пряжи с удаленным jvm
Я использую приведенный ниже код Java для отправки задания на пряжу-кластер.
public ApplicationId submitQuery(String requestId, String query,String fileLocations) {
String driverJar = getDriverJar();
String driverClass =...
762 просмотров
schedule
28.02.2024
Spark - Создание вложенного фрейма данных
Я начинаю с PySpark, и у меня проблемы с созданием DataFrames с вложенными объектами.
Это мой пример.
У меня есть пользователи.
$ cat user.json
{"id":1,"name":"UserA"}
{"id":2,"name":"UserB"}
У пользователей есть заказы.
$ cat...
14468 просмотров
schedule
05.12.2022
В Apache Spark SQL: как закрыть соединение с хранилищем метаданных из HiveContext
В моем проекте есть модульные тесты для разных конфигураций HiveContext (иногда они находятся в одном файле, поскольку сгруппированы по функциям).
После обновления до Spark 1.4 я сталкиваюсь с множеством проблем типа «java.sql.SQLException: другой...
1580 просмотров
schedule
02.06.2024
Интерактивный поиск данных, хранящихся в Parquet, с помощью Apache Spark Streaming и Dataframes
У меня есть значительный объем данных, хранящихся на моей Hadoop HDFS в виде файлов Parquet. Я использую потоковую передачу Spark для интерактивного получения запросов с веб-сервера и преобразования полученных запросов в SQL для обработки моих данных...
628 просмотров
schedule
22.11.2023
Как в SparkR 1.5.0 однозначно указать столбец после соединения с общим столбцом?
Я присоединил два фрейма данных к столбцу с одинаковым именем.
oe = join(orders, emp, orders$EmployeeID == emp$EmployeeID)
Результирующий фрейм данных имеет два столбца с одинаковыми именами EmployeeID
Теперь группа по имени столбца или...
547 просмотров
schedule
15.09.2022
Невозможно выполнить запрос к таблице, созданной с помощью Spark, с помощью registerTempTable
Я выполнил ниже простой скрипт для создания временной таблицы в памяти с использованием контекста Spark SQL.
import sys.process._
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val zeppelinHome = ("pwd" !!).replace("\n","")
val bankText...
905 просмотров
schedule
08.10.2022
com.mysql.jdbc.Driver не найден в пути к классам при запуске искрового sql и бережливого сервера
Я получаю следующие ошибки при запуске оболочки spark-sql.
Но когда я запускаю оболочку с помощью команды, она работает
./spark-sql --jars /usr/local/hive/lib/mysql-connector-java.jar
Но когда я запускаю комиссионный сервер таким же...
15243 просмотров
schedule
28.10.2022
Ошибка предикатов PySpark jdbc: Py4JError: произошла ошибка при вызове o108.jdbc
Я пытаюсь использовать предикаты в своем Метод DataFrameReader.jdbc() :
df = sqlContext.read.jdbc(
url="jdbc:db2://bluemix05.bluforcloud.com:50001/BLUDB:user=****;password=****;sslConnection=true;",
table="GOSALES.BRANCH",...
1546 просмотров
schedule
19.09.2022
Spark groupby агрегации
Я пытаюсь сделать группу по агрегатам. Использование Spark 1.5.2
Подскажите, пожалуйста, почему это не работает.
in - это фрейм данных.
scala> in
res28: org.apache.spark.sql.DataFrame = [id: int, city: string]
scala> in.show...
996 просмотров
schedule
23.11.2023
Невозможно записать в файл parque с помощью fullSet.repartition(1).saveAsParquetFile(swift://notebooks.spark/tweetsFull.parquet)
Я пытаюсь создать приложение, используя искру apache, используя IBM bluemix. (Ссылка https://developer.ibm.com/clouddataservices/sentiment-analysis-of-twitter-hashtags/ ). Я использую потоковый API для потоковой передачи данных и успешно создал...
284 просмотров
schedule
28.04.2024
как сделать обновление в таблице в spark-SQL?
Я хочу обновить одну строку в таблице, которая присутствует в spark-SQL, так как я могу это сделать. например, мой первоначальный запрос: Обновление от студенческих оценок = 56, где id = 1;
Как это сделать в spark-SQL? Поскольку обновление не...
767 просмотров
schedule
28.10.2023
Проблема при попытке запросить таблицу кустов в формате csv через spark-sql. Может ли кто-нибудь объяснить причину?
Я получаю исключение "java.lang.ClassNotFoundException: com.bizo.hive.serde.csv.CSVSerde" при попытке запросить таблицу куста, имеющую свойства ROW FORMAT SERDE 'com.bizo.hive.serde.csv.CSVSerde' СОХРАНЕНО КАК INPUTFORMAT...
632 просмотров
schedule
18.12.2023
Почему средство вывода createDataFrame не создает столбцы этих данных в виде строк?
Следующий код показывает, как создается dataFrame. Видно, что фрейм данных состоит из двух столбцов. В каждом столбце есть целые числа и строка в последней строке.
Насколько я понимаю, createDataFrame должен анализировать типы данных столбцов...
425 просмотров
schedule
18.09.2022