Имам огромен текстов файл (4 GB), където всеки „ред“ е със синтаксис: [number] [number]_[number] [Text]
.
Например
123 12_14 Text 1
1234 13_456 Text 2
33 12_12 Text 3
24 678_10 Text 4
Моята цел е тези данни да бъдат запазени като Excel файл, където всеки "ред" в текстовия файл
е ред в Excel файла. Според миналия пример:
[A1] 123
[B1] 12_14
[C1] Text 1
[A2] 1234
[B2] 13_456
[C2] Text 2
[A3] 33
[B3] 12_12
[C3] Text 3
[A4] 24
[B4] 678_10
[C4] Text 4
Моят план е да повторя текстовите „редове“, както е препоръчано тук, да разделя „редовете“
и да запазя към клетките във файл на Excel.
Поради проблема с размера на текста, реших да създам много малки excel файлове, които всички заедно ще бъдат равни на текстовия файл.
След това трябва да анализирам малките файлове на Excel, главно намерени термини, споменати в [Text]
клетките, и да преброя броя на външния вид, свързан с [number]
клетките (представляващи публикация и ID на публикация).
И накрая, трябва да сумирам всички тези данни в excel файл.
Обмислям най-добрия начин за създаване и анализ на файловете в Excel.
Както споменах тук основните библиотеки са xlrd и csv.