Итак, предположим, что у меня есть кластер со 100 ГБ памяти для искры. У меня есть набор данных размером 2000 ГБ, и я хочу запустить итеративное приложение для этого набора данных. 200 итераций.
Мой вопрос: при использовании .cache() искра сохранит первые 100 ГБ в памяти и выполнит 200 итераций перед автоматическим чтением следующих 100 ГБ?
При работе в пределах памяти преимущества искр очень очевидны, но при работе с большими наборами данных я не совсем уверен, как искра и пряжа управляют данными.