Вопросы по теме 'google-cloud-dataproc'

Экземпляры Hadoop на GCE
Я настраиваю кластер Hadoop на Google Compute Engine. Но у меня возникли проблемы с пониманием того, как будет работать экземпляр кластера. Я уже много искал, но ничего не дал четкого ответа. Создаете ли вы при настройке кластера Hadoop образ...
254 просмотров

Как я могу динамически обновить процессор / оперативную память / диск рабочего в dataproc?
Я создал кластер по умолчанию (4 виртуальных процессора, 15 ГБ ОЗУ) в Google dataproc. После проработки нескольких скребков в кластере осталось 2-3 неработоспособных узла. Поэтому я обновил виртуальные ЦП рабочей виртуальной машины (от 4 до 8...
485 просмотров
schedule 23.10.2022

Как правильно распараллелить задание pyspark на нескольких узлах и избежать проблем с памятью?
В настоящее время я работаю над заданием PySpark (Spark 2.2.0), которое предназначено для обучения модели скрытого распределения Дирихле на основе набора документов. Входные документы предоставляются в виде файла CSV, расположенного в Google Cloud...
537 просмотров

Приложения YARN не могут запускаться при указании меток узлов YARN
Я пытаюсь использовать метки узлов YARN , чтобы пометить рабочие узлы, но когда я запускаю приложения в YARN (Spark или простое приложение YARN), эти приложения не запускаются. со Spark при указании --conf...
1926 просмотров

Как правильно отправить задание pyspark потоковой передачи kafka в Google Dataproc
Я пытаюсь отправить задание pyspark через пользовательский интерфейс Dataproc и продолжаю получать сообщение об ошибке, похоже, он не загружает потоковый пакет kafka. Вот команда REST, предоставляемая пользовательским интерфейсом в моей работе:...
702 просмотров

Конфликт данных во временных таблицах hadoop
У меня есть поток, который выполняет искровые задания на кластерах Dataproc параллельно для разных зон. Для каждой зоны он создает кластер, выполняет искровое задание и удаляет кластер после его завершения. В задании Spark используется метод...
382 просмотров

GCP: у вас недостаточно прав для SSH в этом экземпляре
У меня есть (не администраторская) учетная запись в одном проекте GCP. Когда я запускаю кластер Dataproc, GCP запускает 3 виртуальные машины. Когда я пытаюсь получить доступ к одной из ВМ через SSH (в браузере) , я получаю следующую ошибку:...
4038 просмотров

Вирус Google Cloud Dataproc CrytalMiner (dr.who)
После создания кластера dataproc многие задания автоматически отправляются в ResourceManager пользователем dr.who. Это истощает ресурсы кластера и в конечном итоге перегружает кластер. В логах мало информации. Кто-нибудь еще испытывает эту...
850 просмотров

Некоторые рабочие ноды YARN не присоединяются к кластеру, а я создаю искровой кластер на Dataproc
Я создал искровой кластер на dataproc с 1 главным и 6 рабочими узлами. На консоли GCP я вижу, что работают 6 виртуальных машин, но я вижу только 5 узлов в пользовательском интерфейсе YARN Node Manager. Когда я подключаюсь к этому компьютеру по...
348 просмотров

Как разделить ресурсы (вычислительные машины) между проектами в облачной платформе google
Я пытаюсь создать прототип, где я могу делиться ресурсами между проектами для выполнения задания в облачной платформе Google. Мотивация: допустим, есть два проекта: проект A и проект B. Я хочу использовать кластер dataproc, созданный в проекте A,...
197 просмотров

Как читать таблицу BigQuery из java spark с коннектором BigQuery
Я пытаюсь прочитать таблицу bigquery через искровой код Java, как показано ниже: BigQuerySQLContext bqSqlCtx = new BigQuerySQLContext(sqlContext); bqSqlCtx.setGcpJsonKeyFile("sxxxl-gcp-1x4c0xxxxxxx.json");...
535 просмотров

GCP Dataproc - кириллические символы не отображаются правильно в Python
У меня странная проблема с Python. Если я запустил этот скрипт с кириллическими словами на моей локальной машине python, он будет работать правильно, как и должен. Однако, если я запустил его на Dataproc как задание Spark, он напечатает совсем...
98 просмотров

Sqoop на Hadoop: NoSuchMethodError: com.google.common.base.Stopwatch.createStarted()
Я запускаю sqoop на hadoop в Google Cloud DataProc для доступа к postgresql через облачный SQL-прокси, но получаю ошибку зависимости Java: INFO: First Cloud SQL connection, generating RSA key pair. Exception in thread "main"...
132 просмотров

Передача аргумента имени файла в задание Dataproc Hadoop
У меня есть задание Hadoop, которое я пытаюсь запустить в кластере GCP Dataproc. Задание принимает один аргумент, имя файла, которое используется для настройки определенных аспектов задания. Кажется, я не могу найти способ успешно сделать это с...
176 просмотров

Ошибка при загрузке данных из таблицы BigQuery в кластер Dataproc
Я новичок в Dataproc и PySpark и сталкиваюсь с определенными проблемами при интеграции таблицы BigQuery в кластер Dataproc через Jupyter Lab API. Ниже приведен код, который я использовал для загрузки таблицы BigQuery в кластер Dataproc через Jupyter...
180 просмотров

Есть ли лучший способ загрузить искровой df в BigQuery через кластер PySpark (dataporc)?
В настоящее время я использую приведенный ниже код для загрузки данных в BigQuery через кластер PySpark (dataproc), но либо обработка занимает слишком много времени, либо завершается с ошибкой превышения времени выполнения. Есть ли лучший и более...
93 просмотров

Получение проблемы с BigQuery
Я запускаю пример кода Java, в котором пытаюсь получить описание таблицы BigQuery. Когда я запускаю его на своем локальном компьютере, он работает нормально. Но когда я иду в облако Google, развертываю банку в GCS и запускаю ее через dataproc, я...
174 просмотров

Возможно ли автоматическое масштабирование кластера Dataproc до 0 рабочих процессов, когда никакие задания не выполняются?
Я знаю, что лучше всего удалять кластер, когда он не используется, и запускать его, когда пришло время запускать задания, но я хочу знать, можем ли мы иметь «кластер», работающий 24/7, но отключать всех рабочих, когда нет запущенных заданий (или...
146 просмотров

Проблема зависимости Sqoop и Avro в Dataproc Spark 3.1
Я обновляю искру 2.4.7 до искры 3.1 в GCP Dataproc. Я делаю sqoop import и загружаю данные в файл Parquet. Код работает нормально в версии Spark 2.4.7, но выдает следующую ошибку в Spark 3.1. 2021-01-29 10:57:25,383 ERROR sqoop.Sqoop: Got...
90 просмотров
schedule 28.03.2024

Могу ли я загрузить JAR-файл из своей локальной системы с помощью Cloud Dataproc Python API?
При запущенном CLI командной строки Google Cloud вы можете указать локальную банку с флагом --jars . Однако я хочу отправить задание с помощью Python API. У меня это работает, но когда я указываю jar, если я использую префикс file: , он смотрит на...
36 просмотров
schedule 18.01.2024