Имам проблем с контролни точки в производството, когато spark не може да намери файл от папката _spark_metadata
18/05/04 16:59:55 INFO FileStreamSinkLog: Set the compact interval to 10 [defaultCompactInterval: 10]
18/05/04 16:59:55 INFO DelegatingS3FileSystem: Getting file status for 's3u://data-bucket-prod/data/internal/_spark_metadata/19.compact'
18/05/04 16:59:55 ERROR FileFormatWriter: Aborting job null.
java.lang.IllegalStateException: s3u://data-bucket-prod/data/internal/_spark_metadata/19.compact doesn't exist when compacting batch 29 (compactInterval: 10)
Вече беше зададен въпрос, но засега няма решение.
В папката checkpointing виждам, че партида 29 все още не е ангажирана, така че мога ли да премахна нещо от sources
, state
и/или offsets
на checkpointing, за да предотвратя повреда на spark поради липсващ файл _spark_metadata/19.compact
?