使用 Python 解析 HTML

2024-12-04 08:56:00
admin
原创
137
摘要:问题描述:我正在寻找一个 Python 的 HTML 解析器模块,它可以帮助我以 Python 列表/字典/对象的形式获取标签。如果我有以下形式的文件:<html> <head>Heading</head> <body attr1='val1'> <...

问题描述:

我正在寻找一个 Python 的 HTML 解析器模块,它可以帮助我以 Python 列表/字典/对象的形式获取标签。

如果我有以下形式的文件:

<html>
<head>Heading</head>
<body attr1='val1'>
    <div class='container'>
        <div id='class'>Something here</div>
        <div>Something else</div>
    </div>
</body>
</html>

然后它应该给我一种通过 HTML 标签的名称或 id 访问嵌套标签的方法,这样我基本上就可以要求它获取标签中div包含class='container'body标签内的内容/文本,或类似的东西。

如果您使用过 Firefox 的“检查元素”功能(查看 HTML),您就会知道它会以像树一样嵌套的方式为您提供所有标签。

我更喜欢内置模块,但这可能要求有点太多了。


我浏览了 Stack Overflow 上的大量问题以及互联网上的一些博客,大多数都建议使用 BeautifulSoup、lxml 或 HTMLParser,但很少有人详细介绍其功能,而只是简单地争论哪一个更快/更高效。


解决方案 1:

这样我就可以要求它获取 body 标签内包含的 class='container' 的 div 标签中的内容/文本,或者类似的东西。

try: 
    from BeautifulSoup import BeautifulSoup
except ImportError:
    from bs4 import BeautifulSoup
html = #the HTML code you've written above
parsed_html = BeautifulSoup(html)
print(parsed_html.body.find('div', attrs={'class':'container'}).text)

我想你不需要性能描述 - 只需阅读 BeautifulSoup 的工作原理。查看其官方文档。

解决方案 2:

我猜你要找的是pyquery:

pyquery:一个类似于 jquery 的 Python 库。

您想要的一个例子可能是这样的:

from pyquery import PyQuery    
html = # Your HTML CODE
pq = PyQuery(html)
tag = pq('div#id') # or     tag = pq('div.class')
print tag.text()

它使用与 Firefox 或 Chrome 的检查元素相同的选择器。例如:

元素选择器是'div#mw-head.noprint'

检查的元素选择器是 'div#mw-head.noprint'。因此在 pyquery 中,您只需传递此选择器:

pq('div#mw-head.noprint')

解决方案 3:

您可以在此处阅读有关 Python 中不同 HTML 解析器及其性能的更多信息。尽管这篇文章有点过时,但它仍然为您提供了一个很好的概述。

Python HTML 解析器性能

尽管 BeautifulSoup 不是内置的,但我还是推荐它。因为它可以很轻松地完成这类任务。例如:

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.google.com/')
soup = BeautifulSoup(page)

x = soup.body.find('div', attrs={'class' : 'container'}).text

解决方案 4:

与其他解析器库相比,lxml速度极快:

而且使用cssselect它来抓取 HTML 页面也相当容易:

from lxml.html import parse
doc = parse('http://www.google.com').getroot()
for div in doc.cssselect('a'):
    print '%s: %s' % (div.text_content(), div.get('href'))

lxml.html 文档

解决方案 5:

我推荐使用lxml来解析 HTML。请参阅“解析 HTML”(在 lxml 网站上)。

根据我的经验,Beautiful Soup 会搞乱一些复杂的 HTML。我认为这是因为 Beautiful Soup 不是一个解析器,而是一个非常好的字符串分析器。

解决方案 6:

我建议使用justext库:

https://github.com/miso-belica/jusText

用法:
Python2:

import requests
import justext

response = requests.get("http://planet.python.org/")
paragraphs = justext.justext(response.content, justext.get_stoplist("English"))
for paragraph in paragraphs:
    print paragraph.text

Python3:

import requests
import justext

response = requests.get("http://bbc.com/")
paragraphs = justext.justext(response.content, justext.get_stoplist("English"))
for paragraph in paragraphs:
    print (paragraph.text)

解决方案 7:

我会使用 EHP

https://github.com/iogf/ehp

这里是:

from ehp import *

doc = '''<html>
<head>Heading</head>
<body attr1='val1'>
    <div class='container'>
        <div id='class'>Something here</div>
        <div>Something else</div>
    </div>
</body>
</html>
'''

html = Html()
dom = html.feed(doc)
for ind in dom.find('div', ('class', 'container')):
    print ind.text()

输出:

Something here
Something else
相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   1579  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1355  
  信创产品在政府采购中的占比分析随着信息技术的飞速发展以及国家对信息安全重视程度的不断提高,信创产业应运而生并迅速崛起。信创,即信息技术应用创新,旨在实现信息技术领域的自主可控,减少对国外技术的依赖,保障国家信息安全。政府采购作为推动信创产业发展的重要力量,其对信创产品的采购占比情况备受关注。这不仅关系到信创产业的发展前...
信创和国产化的区别   8  
  信创,即信息技术应用创新产业,旨在实现信息技术领域的自主可控,摆脱对国外技术的依赖。近年来,国货国用信创发展势头迅猛,在诸多领域取得了显著成果。这一发展趋势对科技创新产生了深远的推动作用,不仅提升了我国在信息技术领域的自主创新能力,还为经济社会的数字化转型提供了坚实支撑。信创推动核心技术突破信创产业的发展促使企业和科研...
信创工作   9  
  信创技术,即信息技术应用创新产业,旨在实现信息技术领域的自主可控与安全可靠。近年来,信创技术发展迅猛,对中小企业产生了深远的影响,带来了诸多不可忽视的价值。在数字化转型的浪潮中,中小企业面临着激烈的市场竞争和复杂多变的环境,信创技术的出现为它们提供了新的发展机遇和支撑。信创技术对中小企业的影响技术架构变革信创技术促使中...
信创国产化   8  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用