使用 python 创建一个简单的 XML 文件
- 2025-01-15 08:45:00
- admin 原创
- 87
问题描述:
如果我想在 Python 中创建一个简单的 XML 文件,我有哪些选择?(库方面)
我想要的 xml 如下所示:
<root>
<doc>
<field1 name="blah">some value1</field1>
<field2 name="asdfasd">some vlaue2</field2>
</doc>
</root>
解决方案 1:
目前,最流行(且非常简单)的选项是ElementTree API,它自 Python 2.5 以来就已包含在标准库中。
可用的选项有:
ElementTree (ElementTree 的基本、纯 Python 实现。自 2.5 版起成为标准库的一部分)
cElementTree(ElementTree 的优化 C 实现。自 2.5 版起也在标准库中提供。自 3.3 版起已弃用并自动合并到常规 ElementTree 中。)
LXML(基于 libxml2。提供 ElementTree API 的丰富超集以及 XPath、CSS 选择器等)
下面是如何使用标准库中的 cElementTree 生成示例文档的示例:
import xml.etree.cElementTree as ET
root = ET.Element("root")
doc = ET.SubElement(root, "doc")
ET.SubElement(doc, "field1", name="blah").text = "some value1"
ET.SubElement(doc, "field2", name="asdfasd").text = "some vlaue2"
tree = ET.ElementTree(root)
tree.write("filename.xml")
我已经测试过了,它确实有效,但我假设空格并不重要。如果您需要“prettyprint”缩进,请告诉我,我会查找如何操作。(这可能是 LXML 特定的选项。我很少使用 stdlib 实现)
欲了解更多信息,请访问以下有用的链接:
Python 标准库中实现的 API 文档
入门教程(来自原作者的网站)
LXML etree 教程。(包含从所有主要 ElementTree 实现中加载最佳可用选项的示例代码)
最后要说的是,cElementTree 或 LXML 都应该足够快,可以满足您的所有需求(两者都是优化的 C 代码),但如果您需要榨干每一点性能,LXML 网站上的基准测试表明:
LXML 在序列化(生成)XML 方面明显胜出
作为实现正确父级遍历的副作用,LXML 的解析速度比 cElementTree 慢一点。
解决方案 2:
lxml 库包含一个非常方便的 XML 生成语法,称为E-factory。下面是我给出的示例:
#!/usr/bin/python
import lxml.etree
import lxml.builder
E = lxml.builder.ElementMaker()
ROOT = E.root
DOC = E.doc
FIELD1 = E.field1
FIELD2 = E.field2
the_doc = ROOT(
DOC(
FIELD1('some value1', name='blah'),
FIELD2('some value2', name='asdfasd'),
)
)
print lxml.etree.tostring(the_doc, pretty_print=True)
输出:
<root>
<doc>
<field1 name="blah">some value1</field1>
<field2 name="asdfasd">some value2</field2>
</doc>
</root>
它还支持添加到已经创建的节点,例如,在上述操作之后,你可以说
the_doc.append(FIELD2('another value again', name='hithere'))
解决方案 3:
Yattag http://www.yattag.org/或https://github.com/leforestier/yattag提供了一个有趣的 API 来创建这样的 XML 文档(以及 HTML 文档)。
它使用上下文管理器和with
关键字。
from yattag import Doc, indent
doc, tag, text = Doc().tagtext()
with tag('root'):
with tag('doc'):
with tag('field1', name='blah'):
text('some value1')
with tag('field2', name='asdfasd'):
text('some value2')
result = indent(
doc.getvalue(),
indentation = ' '*4,
newline = '
'
)
print(result)
所以你会得到:
<root>
<doc>
<field1 name="blah">some value1</field1>
<field2 name="asdfasd">some value2</field2>
</doc>
</root>
解决方案 4:
对于最简单的选择,我会选择 minidom: http: //docs.python.org/library/xml.dom.minidom.html。它内置于 python 标准库中,在简单情况下使用起来很简单。
这是一个非常容易遵循的教程:http://www.boddie.org.uk/python/XML_intro.html
解决方案 5:
对于这样一个简单的 XML 结构,您可能不想使用完整的 XML 模块。考虑使用字符串模板来处理最简单的结构,或者使用 Jinja 来处理稍微复杂一些的结构。Jinja 可以处理循环遍历数据列表以生成文档列表的内部 xml。使用原始的 python 字符串模板会有点棘手
有关 Jinja 的示例,请参阅我对类似问题的回答。
这是使用字符串模板生成 xml 的示例。
import string
from xml.sax.saxutils import escape
inner_template = string.Template(' <field${id} name="${name}">${value}</field${id}>')
outer_template = string.Template("""<root>
<doc>
${document_list}
</doc>
</root>
""")
data = [
(1, 'foo', 'The value for the foo document'),
(2, 'bar', 'The <value> for the <bar> document'),
]
inner_contents = [inner_template.substitute(id=id, name=name, value=escape(value)) for (id, name, value) in data]
result = outer_template.substitute(document_list='
'.join(inner_contents))
print result
输出:
<root>
<doc>
<field1 name="foo">The value for the foo document</field1>
<field2 name="bar">The <value> for the <bar> document</field2>
</doc>
</root>
模板方法的缺点是,你无法免费逃脱<
。>
我通过从中引入一个实用程序来解决这个问题xml.sax
解决方案 6:
我刚刚写完一个 xml 生成器,使用了 bigh_29 的模板方法...这是一种控制输出内容的好方法,而不会让太多的对象“妨碍”。
至于标签和值,我使用了两个数组,一个数组提供标签名称和在输出 xml 中的位置,另一个数组引用具有相同标签列表的参数文件。但是,参数文件还具有相应输入 (csv) 文件中数据将从中获取的位置编号。这样,如果来自输入文件的数据的位置发生任何变化,程序不会改变;它会根据参数文件中的相应标签动态计算出数据字段的位置。