如何重写此函数来实现OrderedDict?[重复]
- 2025-03-26 09:08:00
- admin 原创
- 15
问题描述:
我有以下函数,可以粗略地将 XML 文件解析为字典。
不幸的是,由于 Python 字典没有排序,我无法按照我希望的方式循环遍历节点。
我如何改变这一点,以便它输出一个有序的字典,该字典反映了循环时节点的原始顺序for
。
def simplexml_load_file(file):
import collections
from lxml import etree
tree = etree.parse(file)
root = tree.getroot()
def xml_to_item(el):
item = None
if el.text:
item = el.text
child_dicts = collections.defaultdict(list)
for child in el.getchildren():
child_dicts[child.tag].append(xml_to_item(child))
return dict(child_dicts) or item
def xml_to_dict(el):
return {el.tag: xml_to_item(el)}
return xml_to_dict(root)
x = simplexml_load_file('routines/test.xml')
print x
for y in x['root']:
print y
输出:
{'root': {
'a': ['1'],
'aa': [{'b': [{'c': ['2']}, '2']}],
'aaaa': [{'bb': ['4']}],
'aaa': ['3'],
'aaaaa': ['5']
}}
a
aa
aaaa
aaa
aaaaa
我该如何实现collections.OrderedDict
才能确保获得正确的节点顺序?
参考XML文件:
<root>
<a>1</a>
<aa>
<b>
<c>2</c>
</b>
<b>2</b>
</aa>
<aaa>3</aaa>
<aaaa>
<bb>4</bb>
</aaaa>
<aaaaa>5</aaaaa>
</root>
解决方案 1:
您可以使用2.7 版标准库模块中新增的子类✶。实际上您需要的是一个不存在的+组合 — — 但可以通过子类化来创建一个,如下所示:OrderedDict
`dictcollections
Ordereddefaultdict
OrderedDict`
✶如果你的 Python 版本没有OrderedDict
,你应该能够使用 Raymond Hettinger 的Py2.4 ActiveState 配方的有序字典作为基类。
import collections
class OrderedDefaultdict(collections.OrderedDict):
""" A defaultdict with OrderedDict as its base class. """
def __init__(self, default_factory=None, *args, **kwargs):
if not (default_factory is None or callable(default_factory)):
raise TypeError('first argument must be callable or None')
super(OrderedDefaultdict, self).__init__(*args, **kwargs)
self.default_factory = default_factory # called by __missing__()
def __missing__(self, key):
if self.default_factory is None:
raise KeyError(key,)
self[key] = value = self.default_factory()
return value
def __reduce__(self): # Optional, for pickle support.
args = (self.default_factory,) if self.default_factory else tuple()
return self.__class__, args, None, None, iter(self.items())
def __repr__(self): # Optional.
return '%s(%r, %r)' % (self.__class__.__name__, self.default_factory, self.items())
def simplexml_load_file(file):
from lxml import etree
tree = etree.parse(file)
root = tree.getroot()
def xml_to_item(el):
item = el.text or None
child_dicts = OrderedDefaultdict(list)
for child in el.getchildren():
child_dicts[child.tag].append(xml_to_item(child))
return collections.OrderedDict(child_dicts) or item
def xml_to_dict(el):
return {el.tag: xml_to_item(el)}
return xml_to_dict(root)
x = simplexml_load_file('routines/test.xml')
print(x)
for y in x['root']:
print(y)
测试 XML 文件生成的输出如下所示:
{'root':
OrderedDict(
[('a', ['1']),
('aa', [OrderedDict([('b', [OrderedDict([('c', ['2'])]), '2'])])]),
('aaa', ['3']),
('aaaa', [OrderedDict([('bb', ['4'])])]),
('aaaaa', ['5'])
]
)
}
a
aa
aaa
aaaa
aaaaa
我认为这与你想要的很接近。
次要更新:
添加了一个__reduce__()
方法,允许正确对类的实例进行 pickle 和 unpickle。这对于这个问题来说不是必需的,但在类似的问题中出现了。
解决方案 2:
martineau 的配方对我有用,但它对从 DefaultDict 继承的方法 copy() 存在问题。以下方法解决了此缺点:
class OrderedDefaultDict(OrderedDict):
#Implementation as suggested by martineau
def copy(self):
return type(self)(self.default_factory, self)
请注意,此实现不执行深度复制,这在大多数情况下似乎尤其适用于默认字典
解决方案 3:
这里的答案列出了 OrderedDict 的许多可能的实现:如何按照插入顺序从字典中检索项目?
您可以通过复制其中一个实现来创建自己的 OrderedDict 模块,以便在自己的代码中使用。我假设您无法访问 OrderedDict,因为您正在运行的 Python 版本。
您的问题中一个有趣的方面是可能需要 defaultdict 功能。如果需要此功能,您可以实现该__missing__
方法以获得所需的效果。