Свързани въпроси 'google-cloud-dataflow'
Проблеми с кодера с Apache Beam и CombineFn
Ние изграждаме тръбопровод, използвайки Apache Beam и DirectRunner като бегач. В момента се опитваме да създадем прост тръбопровод, чрез който:
Изтеглете данни от Google Cloud Pub/Sub (в момента използвате емулатора за локално изпълнение)...
4853 изгледи
schedule
17.09.2022
BigQueryIO Четене срещу fromQuery
Да речем в програмата Dataflow/Apache Beam, опитвам се да прочета таблица, която има данни, които нарастват експоненциално. Искам да подобря ефективността на четенето.
BigQueryIO.Read.from("projectid:dataset.tablename")
or...
1215 изгледи
schedule
18.09.2022
Времето за изчакване на операцията ReadFromDatastore при четене на 200k+ обекта без филтри за неравенство, без данни, които го превръщат в конвейер
Използвам Google Cloud Dataflow за Python SDK, за да чета в 200k+ обекта от хранилище за данни, като използвам функцията ReadFromDatastore() на заявка без никакви филтри.
def make_example_entity_query():
"""
make an unfiltered query on...
134 изгледи
schedule
16.09.2022
Неуспешно създаване на проект в приставката за Eclipse Google Cloud Tools за Eclipse
Някой се е сблъсквал с тази грешка в приставката на Eclipse „Проектът не е активиран за Cloud Dataflow“. Опитвам се да създам нов проект за поток от данни, предоставящ „Акаунт“ и „Идентификационен номер на проект за платформа за облаци“ и той се...
92 изгледи
schedule
19.09.2022
Можем ли да пишем avro файлове в динамично създадени GCS кофи (базирани на tenantID)?
По принцип това, което се опитвам да направя, е да създам GCS кофа въз основа на tenantID (идва като част от събитието) и да запиша тези събития с помощта на FileIO.writeDynamic, използвайки динамично именуване на файлове в задание на google dataflow....
122 изгледи
schedule
17.09.2022
Apache beam : Програмно създаване на разделени таблици
Пиша облачен поток от данни, който чете съобщения от Pubsub и ги съхранява в BigQuery. Искам да използвам разделена таблица (по дата) и използвам Timestamp , свързан със съобщението, за да определя в кой дял трябва да влезе съобщението. По-долу е...
919 изгледи
schedule
26.09.2022
Мога ли да предам странични входове към Apache Beam PTransforms?
Обработвам предварително данни за TensorFlow с помощта на Apache Beam. Бих искал да избера броя на сегментите TFRecord въз основа на броя примери в моя набор от данни. Съответният раздел от кода е:
EXAMPLES_PER_SHARD = 5.0
num_tfexamples =...
720 изгледи
schedule
28.09.2022
Поток от данни за източване на тръбопровод програмно
Опитах се да източа тръбопровод програмно. Първата част от кода изпълнява тръбопровода, който се извиква с помощта на отделна нишка. След това програмата заспива за известно време и след това се опитва да източи тръбопровода. Опитах да стартирам в...
273 изгледи
schedule
30.09.2022
Как Scio се връща към Kryo
Виждам, че Scio се връща към Kryo кодер, а не Java Serializer, който е кодер по подразбиране, използван за Dataflow, когато кодерът не може да бъде изведен/намерен чрез CoderRegistry. Не виждам никъде препратка към setFallbackCoderProvider , как...
114 изгледи
schedule
03.10.2022
PipeLine с множество трансформации
Опитвам се да разбера жизнения цикъл на трансформациите в конвейер.
Имам конвейерна линия с няколко трансформации.
Pipeline p = Pipeline.create(options);
p.apply(TextIO.Read.named("ReadLines").from(inputFile))
.apply(new...
99 изгледи
schedule
20.11.2022
Задачите на потока от данни висят - не са дадени предупреждения или грешки
Имаме тръбопровод за поток от данни, който чете от BigQuery. Опитва се да прочете ~10 милиона записа. Всичко изглежда нормално - няма грешки или предупреждения. Но задачата просто виси, когато се опитвате да четете от BigQuery. Оставихме го за 15...
176 изгледи
schedule
17.11.2023
Разархивирайте файла в Dataflow преди четене
Клиентът ни качва файлове в GCS, но те са компресирани. Има ли някакъв начин, използвайки Java Dataflow SDK, в който можем да преминем през всички компресирани файлове, да разархивираме файла, да комбинираме всички получени .csv файлове в един файл и...
3390 изгледи
schedule
08.02.2024
Изход на Google Cloud Dataflow към Cassandra
Кой е най-добрият начин да напишете изход на Google Cloud Dataflow в Cassandra?
Изглежда не намирам много хора, които го правят. След като потърсих известно време, единственото нещо, което намерих, беше:...
403 изгледи
schedule
24.04.2024