Разбор на файл xml.gz в python

Имам файл tar.gz на моята локална машина, наречен abc.aXML.gz, който съдържа много XML файлове. Искам да намеря някои данни от тези файлове, но не знам как да анализирам тези файлове с помощта на Elementtree и gzip.

import xml.etree.ElementTree as ET
import gzip
document = ET.parse(gzip("abc.aXML.gz"))
root = document.getroot()

shahbaz khan 26.10.2015 източник

comment

Възможен дубликат на Как да анализирам XML в Python? - Shahzad 26.10.2015

comment

това не е .gz файл - shahbaz khan 26.10.2015

comment

ето примерен код как да анализирате постепенно gzip файл, който съдържа единичен xml документ - jfs 26.10.2015

comment

имаш предвид, че имаш tar.gz (забележка: tar) архив, който съдържа множество файла? Един gzip архив може да съдържа само един файл. - jfs 26.10.2015

comment

да..моят файл е tar.gz - shahbaz khan 26.10.2015

comment

Редактирах въпроса ви за яснота и четливост. - user3071284 28.10.2015

Отговори (4)

arrow_upward
2
arrow_downward

Кодът по-долу работи за мен, за да прочета и обработя компресиран xml файл.
Първо използвах gzip, за да разархивирам файла и след това използвах ElementTree.

import gzip
import xml.etree.ElementTree as ET

input = gzip.open('input-xml.gz', 'r')
tree = ET.parse(input)
root = tree.getroot()

print root.tag
print root.attrib

upkar 23.07.2019

arrow_upward
0
arrow_downward

За да прочетете xml файлове от tar архив:

#!/usr/bin/env python
import tarfile
from contextlib import closing
from xml.etree import ElementTree as etree

with tarfile.open('xmls.tar.gz') as archive:
    for member in archive:
        if member.isreg() and member.name.endswith('.xml'): # regular xml file
            with closing(archive.extractfile(member)) as xmlfile:
                root = etree.parse(xmlfile).getroot()
                print(root)
                # use root here..

jfs 26.10.2015

arrow_upward
0
arrow_downward

За мен следният код работи:

import gzip
import cStringIO
from lxml import etree
from xml.dom import minidom

path                = 'Some path ending in .xml.gz'
a_tag_of_an_element = 'document'
fakefile            = cStringIO.StringIO(gzip.open(path, 'rb').read())
root                = etree.iterparse(fakefile, tag=a_tag_of_an_element)

metr = 0
for _, ch_tree in root:
    metr += 1
    the_tag = ch_tree.tag
    rough_string    =  etree.tostring(ch_tree, encoding='utf-8')
    reparsed        = minidom.parseString(rough_string)
    print(reparsed.toprettyxml(indent="\t"))

print(metr)

Той итеративно анализира xml файла, без да го извлича от gz формата.

Δημητρης Παππάς 30.10.2018

arrow_upward
0
arrow_downward

АКТУАЛИЗИРАНО

За да анализирате gzipped xml файл, използвайте minidom парсер, има две опции:

предайте файловия обект, сочещ към xml файла
предайте пълното съдържание като низ

[Вторият е по-мощен вариант от гледна точка на ефективност.]

import gzip
from xml.dom.minidom import parse, parseString

# open and read gzipped xml file
infile = gzip.open( abc.aXML.gz )
content = infile.read()

# parse xml file content
 dom = minidom.parseString(content)

Shahzad 26.10.2015

comment

Промяната на последния ред на dom = minidom.parseString(content) работи за мен - anish; 24.04.2019

Разбор на файл xml.gz в python

Отговори (4)

Подобни въпроси