如何在 Python 3.1 中取消转义字符串中的 HTML 实体?[重复]

2025-02-25 09:09:00
admin
原创
36
摘要:问题描述:我四处寻找,只找到了针对 Python 2.6 及更早版本的解决方案,没有找到有关如何在 Python 3.X 中执行此操作的任何信息。(我只能访问 Win7 框。)我必须能够在 3.1 中做到这一点,最好不使用外部库。目前,我已经安装了 httplib2 并可以访问命令提示符 curl(这就是我获...

问题描述:

我四处寻找,只找到了针对 Python 2.6 及更早版本的解决方案,没有找到有关如何在 Python 3.X 中执行此操作的任何信息。(我只能访问 Win7 框。)

我必须能够在 3.1 中做到这一点,最好不使用外部库。目前,我已经安装了 httplib2 并可以访问命令提示符 curl(这就是我获取页面源代码的方式)。不幸的是,curl 不会解码 html 实体,据我所知,我在文档中找不到解码它的命令。

是的,我尝试过让 Beautiful Soup 在 3.X 中运行很多次,但都没有成功。如果您能提供关于如何在 MS Windows 环境中使用 Python 3 运行它的明确说明,我将不胜感激。

因此,为了清楚起见,我需要将这样的字符串转换Suzy & John为这样的字符串:“Suzy & John”。


解决方案 1:

您可以使用函数html.unescape:

Python3.4+中(感谢 JF Sebastian 的更新):

import html
html.unescape('Suzy & John')
# 'Suzy & John'

html.unescape('"')
# '"'

Python3.3或更早版本中:

import html.parser    
html.parser.HTMLParser().unescape('Suzy & John')

在Python2中:

import HTMLParser
HTMLParser.HTMLParser().unescape('Suzy & John')

解决方案 2:

您可以将其用于xml.sax.saxutils.unescape此目的。此模块包含在 Python 标准库中,可在 Python 2.x 和 Python 3.x 之间移植。

>>> import xml.sax.saxutils as saxutils
>>> saxutils.unescape("Suzy & John")
'Suzy & John'

解决方案 3:

显然,我的声誉不够高,除了发布此帖外什么也做不了。unutbu 的答案没有取消转义引号。我发现唯一能做到这一点的是这个函数:

import re
from htmlentitydefs import name2codepoint as n2cp

def decodeHtmlentities(string):
    def substitute_entity(match):        
        ent = match.group(2)
        if match.group(1) == "#":
            return unichr(int(ent))
        else:
            cp = n2cp.get(ent)
            if cp:
                return unichr(cp)
            else:
                return match.group()
    entity_re = re.compile("&(#?)(d{1,5}|w{1,8});")
    return entity_re.subn(substitute_entity, string)[0]

这是我从这个页面得到的。

解决方案 4:

Python 3.x也有html.entities

解决方案 5:

在我的例子中,我有一个在 as3 转义函数中转义的 html 字符串。经过一个小时的谷歌搜索,没有找到任何有用的东西,所以我编写了这个递归函数来满足我的需求。它在这里,

def unescape(string):
    index = string.find("%")
    if index == -1:
        return string
    else:
        #if it is escaped unicode character do different decoding
        if string[index+1:index+2] == 'u':
            replace_with = ("\\\"+string[index+1:index+6]).decode('unicode_escape')
            string = string.replace(string[index:index+6],replace_with)
        else:
            replace_with = string[index+1:index+3].decode('hex')
            string = string.replace(string[index:index+3],replace_with)
        return unescape(string)

编辑-1添加了处理unicode字符的功能。

解决方案 6:

我不确定这是否是一个内置库,但它看起来像你需要的并且支持 3.1。

来自:http://docs.python.org/3.1/library/xml.sax.utils.html ?highlight=html%20unescape

xml.sax.saxutils.unescape(data, entities={}) 对数据字符串中的 '&'、'<' 和 '>' 进行取消转义。

相关推荐
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1300  
  华为IPD产品开发流程是一套先进且成熟的产品开发管理体系,对众多企业提升产品竞争力有着重要的借鉴意义。它涵盖多个关键要素,这些要素相互关联、相互作用,共同构建起高效、科学的产品开发流程。深入剖析其中的五个核心要素,能让我们更好地理解华为成功背后的产品开发逻辑,为企业的产品创新与发展提供有力的指导。市场管理市场管理是IP...
IPD框架   20  
  华为集成产品开发(IPD)体系作为一套先进的产品开发管理理念和方法,在华为的发展历程中发挥了至关重要的作用。在供应链管理领域,IPD同样展现出巨大的价值,深刻影响着企业的运营效率、产品质量以及市场竞争力。通过将IPD理念融入供应链管理,华为实现了从产品规划到交付的全流程优化,为企业的持续发展奠定了坚实基础。IPD对供应...
IPD集成产品开发流程   23  
  IPD(Integrated Product Development)项目管理作为一种先进的产品开发管理模式,旨在通过整合跨部门资源,实现产品的高效开发与上市。然而,在实际推行过程中,IPD项目管理面临着诸多风险,若处理不当,可能导致项目进度延迟、成本超支甚至项目失败。深入了解这些风险并制定有效的应对策略,对于保障IP...
华为IPD流程   19  
  华为作为全球知名的科技企业,其成功背后的管理模式备受关注。其中,IPD(集成产品开发)产品开发流程对华为的创新发展起到了至关重要的推动作用。IPD不仅仅是一种流程,更是一种先进的管理理念,它将产品开发视为一个系统工程,涵盖了从市场需求分析、产品规划、研发、生产到上市等多个环节,通过整合企业内外部资源,实现高效、协同的产...
IPD流程中PDCP是什么意思   19  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用