使用 python 抓取 javascript 生成的 html-IT科技

使用 python 抓取 javascript 生成的 html

2025-02-11 09:51:00

admin

原创

摘要：问题描述：我需要使用 Python 抓取网站数据。我使用 urlib 模块获取了源 html 代码，但我还需要抓取一些由 javascript 函数（包含在 html 源代码中）生成的 html 代码。这个函数在网站中的作用是，当您按下按钮时，它会输出一些 html 代码。我如何使用 Python 代码“按下...

问题描述：

我需要使用 Python 抓取网站数据。我使用 urlib 模块获取了源 html 代码，但我还需要抓取一些由 javascript 函数（包含在 html 源代码中）生成的 html 代码。这个函数在网站中的作用是，当您按下按钮时，它会输出一些 html 代码。我如何使用 Python 代码“按下”此按钮？scrapy 能帮我吗？我用 firebug 捕获了 POST 请求，但当我尝试将其传递到 url 上时，出现 403 错误。有什么建议吗？

解决方案 1：

在 Python 中，我认为Selenium 1.0是最佳选择。它是一个库，可让您使用所选语言控制真实的 Web 浏览器。

您需要在运行脚本的机器上安装相关的 Web 浏览器，但它看起来是以编程方式查询使用大量 JavaScript 的网站的最可靠方法。

解决方案 2：

由于这里没有全面的答案，我将继续写一个。

为了抓取 JS 渲染的页面，我们需要一个具有 JavaScript 引擎的浏览器（即支持 JavaScript 渲染）

Mechanize、url2lib等选项将不起作用，因为它们不支持 JavaScript。

因此，您可以这样做：

设置PhantomJS与Selenium一起运行。安装两者的依赖项后（请参阅此处），您可以使用以下代码作为示例来获取完全呈现的网站。

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get('http://jokes.cc.com/')
soupFromJokesCC = BeautifulSoup(driver.page_source) #page_source fetches page after rendering is complete
driver.save_screenshot('screen.png') # save a screenshot to disk

driver.quit()