Datalab не может прочитать данные Bigquery в dataproc

datalab установлен в кластере dataproc 1 node на gcp.

Следующий запрос выполнен успешно: %%bq tables describe --name "datalab-dev-xxx.ML_PP_xxx.ML_CAMPN30_xxx"

В то время как запрос на чтение данных завершается с ошибкой: SELECT * FROM 'datalab-dev-xxx.ML_PP_xxx.ML_CAMPN30_xxx' WHERE partition_day = "2019-05-22" LIMIT 10

Ошибка: Ошибка HTTP-запроса: не найдено: задание datalab-dev-238506:job_JT_cgX84NyJQRt-F_DmKl5YM44hb

Любая подсказка о проблеме?


person Revan    schedule 23.05.2019    source источник


Ответы (1)


Скорее всего, набор данных datalab-dev-xxx.ML_PP_xxx не находится в США. Вместо этого рассмотрите возможность использования последней версии google-cloud-bigquery, так как она знает, как правильно обрабатывать автоматически обнаруженные местоположения при выдаче запросов. Старая библиотека datalab обрабатывает это некорректно и ищет задание не в том месте.

Дополнительную информацию о переходе на более новую библиотеку см. в этой статье о переносе.

person shollyman    schedule 23.05.2019
comment
Спасибо! Я пытался использовать google-cloud-bigquery, но по-прежнему получаю следующие ошибки: __init__() takes 2 positional arguments but 3 were given Выполненная команда: %%bigquery SELECT *, EXTRACT(DAYOFWEEK FROM cmp_day) as dayofweek FROM datalab-xx-238506.ML_XX_DATASETS.ML_XX limit 10 - person Revan; 28.05.2019