Разбор файла xml.gz в python

У меня есть файл tar.gz на моей локальной машине с именем abc.aXML.gz, который содержит много XML-файлов. Я хочу найти некоторые данные из этих файлов, но не знаю, как разобрать эти файлы, используя Elementtree и gzip.

import xml.etree.ElementTree as ET
import gzip
document = ET.parse(gzip("abc.aXML.gz"))
root = document.getroot()

shahbaz khan 26.10.2015 источник

comment

Возможный дубликат Как анализировать XML в Python? - Shahzad 26.10.2015

comment

это не файл .gz - shahbaz khan 26.10.2015

comment

вот пример кода, как поэтапно анализировать файл gzip, содержащий одиночный документ xml - jfs 26.10.2015

comment

Вы имеете в виду, что у вас есть архив tar.gz (примечание: tar), который содержит несколько файлов? Архив gzip может содержать только один файл. - jfs 26.10.2015

comment

да...мой файл tar.gz - shahbaz khan 26.10.2015

comment

Я отредактировал ваш вопрос для ясности и удобочитаемости. - user3071284 28.10.2015

Ответы (4)

arrow_upward
2
arrow_downward

Приведенный ниже код работал для меня, чтобы читать и обрабатывать заархивированный XML-файл.
Сначала я использовал gzip для распаковки файла, а затем использовал ElementTree.

import gzip
import xml.etree.ElementTree as ET

input = gzip.open('input-xml.gz', 'r')
tree = ET.parse(input)
root = tree.getroot()

print root.tag
print root.attrib

upkar 23.07.2019

arrow_upward
0
arrow_downward

Чтобы прочитать xml-файлы из tar-архива:

#!/usr/bin/env python
import tarfile
from contextlib import closing
from xml.etree import ElementTree as etree

with tarfile.open('xmls.tar.gz') as archive:
    for member in archive:
        if member.isreg() and member.name.endswith('.xml'): # regular xml file
            with closing(archive.extractfile(member)) as xmlfile:
                root = etree.parse(xmlfile).getroot()
                print(root)
                # use root here..

jfs 26.10.2015

arrow_upward
0
arrow_downward

Для меня работал следующий код:

import gzip
import cStringIO
from lxml import etree
from xml.dom import minidom

path                = 'Some path ending in .xml.gz'
a_tag_of_an_element = 'document'
fakefile            = cStringIO.StringIO(gzip.open(path, 'rb').read())
root                = etree.iterparse(fakefile, tag=a_tag_of_an_element)

metr = 0
for _, ch_tree in root:
    metr += 1
    the_tag = ch_tree.tag
    rough_string    =  etree.tostring(ch_tree, encoding='utf-8')
    reparsed        = minidom.parseString(rough_string)
    print(reparsed.toprettyxml(indent="\t"))

print(metr)

Он итеративно анализирует файл xml, не извлекая его из формата gz.

Δημητρης Παππάς 30.10.2018

arrow_upward
0
arrow_downward

ОБНОВЛЕНО

Чтобы проанализировать сжатый gzml-файл, используйте парсер minidom, есть два варианта:

передать объект файла, указывающий на файл xml
передать полный контент в виде строки

[Второй вариант более мощный с точки зрения эффективности.]

import gzip
from xml.dom.minidom import parse, parseString

# open and read gzipped xml file
infile = gzip.open( abc.aXML.gz )
content = infile.read()

# parse xml file content
 dom = minidom.parseString(content)

Shahzad 26.10.2015

comment

Изменение последней строки на dom = minidom.parseString(content) сработало для меня - anish; 24.04.2019

Разбор файла xml.gz в python

Ответы (4)

Похожие вопросы