使用 python 创建一个简单的 XML 文件-IT科技

使用 python 创建一个简单的 XML 文件

2025-01-15 08:45:00

admin

原创

摘要：问题描述：如果我想在 Python 中创建一个简单的 XML 文件，我有哪些选择？（库方面）我想要的 xml 如下所示：<root> <doc> <field1 name="blah">some value1</field1> ...

问题描述：

如果我想在 Python 中创建一个简单的 XML 文件，我有哪些选择？（库方面）

我想要的 xml 如下所示：

<root>
 <doc>
     <field1 name="blah">some value1</field1>
     <field2 name="asdfasd">some vlaue2</field2>
 </doc>

</root>

解决方案 1：

目前，最流行（且非常简单）的选项是ElementTree API，它自 Python 2.5 以来就已包含在标准库中。

可用的选项有：

ElementTree （ElementTree 的基本、纯 Python 实现。自 2.5 版起成为标准库的一部分）
cElementTree（ElementTree 的优化 C 实现。自 2.5 版起也在标准库中提供。自 3.3 版起已弃用并自动合并到常规 ElementTree 中。）
LXML（基于 libxml2。提供 ElementTree API 的丰富超集以及 XPath、CSS 选择器等）

下面是如何使用标准库中的 cElementTree 生成示例文档的示例：

import xml.etree.cElementTree as ET

root = ET.Element("root")
doc = ET.SubElement(root, "doc")

ET.SubElement(doc, "field1", name="blah").text = "some value1"
ET.SubElement(doc, "field2", name="asdfasd").text = "some vlaue2"

tree = ET.ElementTree(root)
tree.write("filename.xml")

我已经测试过了，它确实有效，但我假设空格并不重要。如果您需要“prettyprint”缩进，请告诉我，我会查找如何操作。（这可能是 LXML 特定的选项。我很少使用 stdlib 实现）

欲了解更多信息，请访问以下有用的链接：

Python 标准库中实现的 API 文档
入门教程（来自原作者的网站）
LXML etree 教程。（包含从所有主要 ElementTree 实现中加载最佳可用选项的示例代码）

最后要说的是，cElementTree 或 LXML 都应该足够快，可以满足您的所有需求（两者都是优化的 C 代码），但如果您需要榨干每一点性能，LXML 网站上的基准测试表明：

LXML 在序列化（生成）XML 方面明显胜出
作为实现正确父级遍历的副作用，LXML 的解析速度比 cElementTree 慢一点。

解决方案 2：

lxml 库包含一个非常方便的 XML 生成语法，称为E-factory。下面是我给出的示例：

#!/usr/bin/python
import lxml.etree
import lxml.builder    

E = lxml.builder.ElementMaker()
ROOT = E.root
DOC = E.doc
FIELD1 = E.field1
FIELD2 = E.field2

the_doc = ROOT(
        DOC(
            FIELD1('some value1', name='blah'),
            FIELD2('some value2', name='asdfasd'),
            )   
        )   

print lxml.etree.tostring(the_doc, pretty_print=True)

输出：

<root>
  <doc>
    <field1 name="blah">some value1</field1>
    <field2 name="asdfasd">some value2</field2>
  </doc>
</root>

它还支持添加到已经创建的节点，例如，在上述操作之后，你可以说

the_doc.append(FIELD2('another value again', name='hithere'))

解决方案 3：

Yattag http://www.yattag.org/或https://github.com/leforestier/yattag提供了一个有趣的 API 来创建这样的 XML 文档（以及 HTML 文档）。

它使用上下文管理器和with关键字。

from yattag import Doc, indent

doc, tag, text = Doc().tagtext()

with tag('root'):
    with tag('doc'):
        with tag('field1', name='blah'):
            text('some value1')
        with tag('field2', name='asdfasd'):
            text('some value2')

result = indent(
    doc.getvalue(),
    indentation = ' '*4,
    newline = '
'
)

print(result)

所以你会得到：

<root>
    <doc>
        <field1 name="blah">some value1</field1>
        <field2 name="asdfasd">some value2</field2>
    </doc>
</root>

解决方案 4：

对于最简单的选择，我会选择 minidom： http: //docs.python.org/library/xml.dom.minidom.html。它内置于 python 标准库中，在简单情况下使用起来很简单。

这是一个非常容易遵循的教程：http://www.boddie.org.uk/python/XML_intro.html

解决方案 5：

对于这样一个简单的 XML 结构，您可能不想使用完整的 XML 模块。考虑使用字符串模板来处理最简单的结构，或者使用 Jinja 来处理稍微复杂一些的结构。Jinja 可以处理循环遍历数据列表以生成文档列表的内部 xml。使用原始的 python 字符串模板会有点棘手

有关 Jinja 的示例，请参阅我对类似问题的回答。

这是使用字符串模板生成 xml 的示例。

import string
from xml.sax.saxutils import escape

inner_template = string.Template('    <field${id} name="${name}">${value}</field${id}>')

outer_template = string.Template("""<root>
 <doc>
${document_list}
 </doc>
</root>
 """)

data = [
    (1, 'foo', 'The value for the foo document'),
    (2, 'bar', 'The <value> for the <bar> document'),
]

inner_contents = [inner_template.substitute(id=id, name=name, value=escape(value)) for (id, name, value) in data]
result = outer_template.substitute(document_list='
'.join(inner_contents))
print result

输出：

<root>
 <doc>
    <field1 name="foo">The value for the foo document</field1>
    <field2 name="bar">The &lt;value&gt; for the &lt;bar&gt; document</field2>
 </doc>
</root>

模板方法的缺点是，你无法免费逃脱<。>我通过从中引入一个实用程序来解决这个问题xml.sax

解决方案 6：

我刚刚写完一个 xml 生成器，使用了 bigh_29 的模板方法...这是一种控制输出内容的好方法，而不会让太多的对象“妨碍”。

至于标签和值，我使用了两个数组，一个数组提供标签名称和在输出 xml 中的位置，另一个数组引用具有相同标签列表的参数文件。但是，参数文件还具有相应输入 (csv) 文件中数据将从中获取的位置编号。这样，如果来自输入文件的数据的位置发生任何变化，程序不会改变；它会根据参数文件中的相应标签动态计算出数据字段的位置。