Свързани въпроси 'google-cloud-dataflow'

Проблеми с кодера с Apache Beam и CombineFn
Ние изграждаме тръбопровод, използвайки Apache Beam и DirectRunner като бегач. В момента се опитваме да създадем прост тръбопровод, чрез който: Изтеглете данни от Google Cloud Pub/Sub (в момента използвате емулатора за локално изпълнение)...
4853 изгледи

BigQueryIO Четене срещу fromQuery
Да речем в програмата Dataflow/Apache Beam, опитвам се да прочета таблица, която има данни, които нарастват експоненциално. Искам да подобря ефективността на четенето. BigQueryIO.Read.from("projectid:dataset.tablename") or...
1215 изгледи

Времето за изчакване на операцията ReadFromDatastore при четене на 200k+ обекта без филтри за неравенство, без данни, които го превръщат в конвейер
Използвам Google Cloud Dataflow за Python SDK, за да чета в 200k+ обекта от хранилище за данни, като използвам функцията ReadFromDatastore() на заявка без никакви филтри. def make_example_entity_query(): """ make an unfiltered query on...
134 изгледи

Неуспешно създаване на проект в приставката за Eclipse Google Cloud Tools за Eclipse
Някой се е сблъсквал с тази грешка в приставката на Eclipse „Проектът не е активиран за Cloud Dataflow“. Опитвам се да създам нов проект за поток от данни, предоставящ „Акаунт“ и „Идентификационен номер на проект за платформа за облаци“ и той се...
92 изгледи

Можем ли да пишем avro файлове в динамично създадени GCS кофи (базирани на tenantID)?
По принцип това, което се опитвам да направя, е да създам GCS кофа въз основа на tenantID (идва като част от събитието) и да запиша тези събития с помощта на FileIO.writeDynamic, използвайки динамично именуване на файлове в задание на google dataflow....
122 изгледи
schedule 17.09.2022

Apache beam : Програмно създаване на разделени таблици
Пиша облачен поток от данни, който чете съобщения от Pubsub и ги съхранява в BigQuery. Искам да използвам разделена таблица (по дата) и използвам Timestamp , свързан със съобщението, за да определя в кой дял трябва да влезе съобщението. По-долу е...
919 изгледи

Мога ли да предам странични входове към Apache Beam PTransforms?
Обработвам предварително данни за TensorFlow с помощта на Apache Beam. Бих искал да избера броя на сегментите TFRecord въз основа на броя примери в моя набор от данни. Съответният раздел от кода е: EXAMPLES_PER_SHARD = 5.0 num_tfexamples =...
720 изгледи

Поток от данни за източване на тръбопровод програмно
Опитах се да източа тръбопровод програмно. Първата част от кода изпълнява тръбопровода, който се извиква с помощта на отделна нишка. След това програмата заспива за известно време и след това се опитва да източи тръбопровода. Опитах да стартирам в...
273 изгледи
schedule 30.09.2022

Как Scio се връща към Kryo
Виждам, че Scio се връща към Kryo кодер, а не Java Serializer, който е кодер по подразбиране, използван за Dataflow, когато кодерът не може да бъде изведен/намерен чрез CoderRegistry. Не виждам никъде препратка към setFallbackCoderProvider , как...
114 изгледи

PipeLine с множество трансформации
Опитвам се да разбера жизнения цикъл на трансформациите в конвейер. Имам конвейерна линия с няколко трансформации. Pipeline p = Pipeline.create(options); p.apply(TextIO.Read.named("ReadLines").from(inputFile)) .apply(new...
99 изгледи
schedule 20.11.2022

Задачите на потока от данни висят - не са дадени предупреждения или грешки
Имаме тръбопровод за поток от данни, който чете от BigQuery. Опитва се да прочете ~10 милиона записа. Всичко изглежда нормално - няма грешки или предупреждения. Но задачата просто виси, когато се опитвате да четете от BigQuery. Оставихме го за 15...
176 изгледи
schedule 17.11.2023

Разархивирайте файла в Dataflow преди четене
Клиентът ни качва файлове в GCS, но те са компресирани. Има ли някакъв начин, използвайки Java Dataflow SDK, в който можем да преминем през всички компресирани файлове, да разархивираме файла, да комбинираме всички получени .csv файлове в един файл и...
3390 изгледи
schedule 08.02.2024

Изход на Google Cloud Dataflow към Cassandra
Кой е най-добрият начин да напишете изход на Google Cloud Dataflow в Cassandra? Изглежда не намирам много хора, които го правят. След като потърсих известно време, единственото нещо, което намерих, беше:...
403 изгледи
schedule 24.04.2024