Да предположим, че имам клъстер със 100 GB памет за използване на spark. Имам набор от данни от 2000 GB и искам да стартирам итеративно приложение за този набор от данни. 200 повторения.
Въпросът ми е, когато използвам .cache(), ще запазя ли Spark първите 100 GB в паметта и ще изпълни 200 итерации, преди автоматично да прочете следващите 100 GB?
Когато работите в рамките на ограничението на паметта, предимствата на sparks са много ясни, но когато работите с по-големи набори от данни, не съм напълно сигурен как spark и yarn управляват данните.