Създадох RDD от входен файл, който изглежда така:
[u'$, Claw\t\t\t"OnCreativity" (2012) [Himself]']
[u'$, Homo\t\t\tNykytaiteen museo (1986) [Himself] <25>\n\t\t\tSuuri illusioni (1985) [Guests] <22>']
[u'$, Steve\t\tE.R. Sluts (2003) (V) <12>']
Лесно е да се раздели всеки запис в този RDD на базата на табулатор, '\t'
, но това, което бих искал да получа, е всеки запис да бъде разделен на базата на един или повече табулатори.
Опитах обичайните начини да направя това с Python, напр. когато някой иска да раздели низ въз основа на един или повече раздели, но тези решения не изглежда да работят в контекста на PySpark, когато се опитвате да разделите RDD запис.