У меня есть огромный текстовый файл (4 ГБ), где каждая "строка" имеет синтаксис: [number] [number]_[number] [Text]
.
Например
123 12_14 Text 1
1234 13_456 Text 2
33 12_12 Text 3
24 678_10 Text 4
Моя цель - сохранить эти данные в виде файла Excel, где каждая «строка» в текстовом файле
является строкой в файле Excel. Согласно прошлому примеру:
[A1] 123
[B1] 12_14
[C1] Text 1
[A2] 1234
[B2] 13_456
[C2] Text 2
[A3] 33
[B3] 12_12
[C3] Text 3
[A4] 24
[B4] 678_10
[C4] Text 4
Мой план состоит в том, чтобы повторить текст "строки", как указано здесь, разделить "строки",
и сохранить к ячейкам в файле Excel.
Из-за проблемы с размером текста я решил создать много небольших файлов Excel, которые все вместе будут равны текстовому файлу.
Затем мне нужно проанализировать небольшие файлы Excel, в основном найти термины, которые упоминаются в ячейках [Text]
, и подсчитать количество появлений, связанных с ячейками [number]
(представляющих сообщение и идентификатор сообщения).
Наконец, мне нужно суммировать все эти данные в файле Excel.
Я рассматриваю лучший способ создания и анализа файлов Excel.
Как уже упоминалось здесь, основными библиотеками являются xlrd и csv.