使用 Python 解析 HTML

2024-12-04 08:56:00
admin
原创
136
摘要:问题描述:我正在寻找一个 Python 的 HTML 解析器模块,它可以帮助我以 Python 列表/字典/对象的形式获取标签。如果我有以下形式的文件:<html> <head>Heading</head> <body attr1='val1'> <...

问题描述:

我正在寻找一个 Python 的 HTML 解析器模块,它可以帮助我以 Python 列表/字典/对象的形式获取标签。

如果我有以下形式的文件:

<html>
<head>Heading</head>
<body attr1='val1'>
    <div class='container'>
        <div id='class'>Something here</div>
        <div>Something else</div>
    </div>
</body>
</html>

然后它应该给我一种通过 HTML 标签的名称或 id 访问嵌套标签的方法,这样我基本上就可以要求它获取标签中div包含class='container'body标签内的内容/文本,或类似的东西。

如果您使用过 Firefox 的“检查元素”功能(查看 HTML),您就会知道它会以像树一样嵌套的方式为您提供所有标签。

我更喜欢内置模块,但这可能要求有点太多了。


我浏览了 Stack Overflow 上的大量问题以及互联网上的一些博客,大多数都建议使用 BeautifulSoup、lxml 或 HTMLParser,但很少有人详细介绍其功能,而只是简单地争论哪一个更快/更高效。


解决方案 1:

这样我就可以要求它获取 body 标签内包含的 class='container' 的 div 标签中的内容/文本,或者类似的东西。

try: 
    from BeautifulSoup import BeautifulSoup
except ImportError:
    from bs4 import BeautifulSoup
html = #the HTML code you've written above
parsed_html = BeautifulSoup(html)
print(parsed_html.body.find('div', attrs={'class':'container'}).text)

我想你不需要性能描述 - 只需阅读 BeautifulSoup 的工作原理。查看其官方文档。

解决方案 2:

我猜你要找的是pyquery:

pyquery:一个类似于 jquery 的 Python 库。

您想要的一个例子可能是这样的:

from pyquery import PyQuery    
html = # Your HTML CODE
pq = PyQuery(html)
tag = pq('div#id') # or     tag = pq('div.class')
print tag.text()

它使用与 Firefox 或 Chrome 的检查元素相同的选择器。例如:

元素选择器是'div#mw-head.noprint'

检查的元素选择器是 'div#mw-head.noprint'。因此在 pyquery 中,您只需传递此选择器:

pq('div#mw-head.noprint')

解决方案 3:

您可以在此处阅读有关 Python 中不同 HTML 解析器及其性能的更多信息。尽管这篇文章有点过时,但它仍然为您提供了一个很好的概述。

Python HTML 解析器性能

尽管 BeautifulSoup 不是内置的,但我还是推荐它。因为它可以很轻松地完成这类任务。例如:

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.google.com/')
soup = BeautifulSoup(page)

x = soup.body.find('div', attrs={'class' : 'container'}).text

解决方案 4:

与其他解析器库相比,lxml速度极快:

而且使用cssselect它来抓取 HTML 页面也相当容易:

from lxml.html import parse
doc = parse('http://www.google.com').getroot()
for div in doc.cssselect('a'):
    print '%s: %s' % (div.text_content(), div.get('href'))

lxml.html 文档

解决方案 5:

我推荐使用lxml来解析 HTML。请参阅“解析 HTML”(在 lxml 网站上)。

根据我的经验,Beautiful Soup 会搞乱一些复杂的 HTML。我认为这是因为 Beautiful Soup 不是一个解析器,而是一个非常好的字符串分析器。

解决方案 6:

我建议使用justext库:

https://github.com/miso-belica/jusText

用法:
Python2:

import requests
import justext

response = requests.get("http://planet.python.org/")
paragraphs = justext.justext(response.content, justext.get_stoplist("English"))
for paragraph in paragraphs:
    print paragraph.text

Python3:

import requests
import justext

response = requests.get("http://bbc.com/")
paragraphs = justext.justext(response.content, justext.get_stoplist("English"))
for paragraph in paragraphs:
    print (paragraph.text)

解决方案 7:

我会使用 EHP

https://github.com/iogf/ehp

这里是:

from ehp import *

doc = '''<html>
<head>Heading</head>
<body attr1='val1'>
    <div class='container'>
        <div id='class'>Something here</div>
        <div>Something else</div>
    </div>
</body>
</html>
'''

html = Html()
dom = html.feed(doc)
for ind in dom.find('div', ('class', 'container')):
    print ind.text()

输出:

Something here
Something else
相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   1565  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1354  
  信创国产芯片作为信息技术创新的核心领域,对于推动国家自主可控生态建设具有至关重要的意义。在全球科技竞争日益激烈的背景下,实现信息技术的自主可控,摆脱对国外技术的依赖,已成为保障国家信息安全和产业可持续发展的关键。国产芯片作为信创产业的基石,其发展水平直接影响着整个信创生态的构建与完善。通过不断提升国产芯片的技术实力、产...
国产信创系统   21  
  信创生态建设旨在实现信息技术领域的自主创新和安全可控,涵盖了从硬件到软件的全产业链。随着数字化转型的加速,信创生态建设的重要性日益凸显,它不仅关乎国家的信息安全,更是推动产业升级和经济高质量发展的关键力量。然而,在推进信创生态建设的过程中,面临着诸多复杂且严峻的挑战,需要深入剖析并寻找切实可行的解决方案。技术创新难题技...
信创操作系统   27  
  信创产业作为国家信息技术创新发展的重要领域,对于保障国家信息安全、推动产业升级具有关键意义。而国产芯片作为信创产业的核心基石,其研发进展备受关注。在信创国产芯片的研发征程中,面临着诸多复杂且艰巨的难点,这些难点犹如一道道关卡,阻碍着国产芯片的快速发展。然而,科研人员和相关企业并未退缩,积极探索并提出了一系列切实可行的解...
国产化替代产品目录   28  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用