用python抓取动态内容

网友

1楼 · 编辑于 2024-06-17 05:57:41

您可以使用ghost.py直接与页面上的JavaScript交互，而不是尝试对其进行反向工程。

如果在chrome控制台中运行以下查询，您将看到它返回您想要的所有内容。

document.getElementsByClassName('inline-text-org');

回报

[<div class="inline-text-org" title="University of Manchester">University of Manchester</div>, 
 <div class="inline-text-org" title="University of California Irvine">University of California ...</div>
  etc...

您可以使用ghost.py在现实生活中的DOM中通过python运行JavaScript。

这真的很酷：

from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://academic.research.microsoft.com/Search?query=lander')
result, resources = ghost.evaluate(
    "document.getElementsByClassName('inline-text-org');")

网友

2楼 · 编辑于 2024-06-17 05:57:41

前面有人问了一个非常相似的问题。引用的是selenium，它最初是一个web应用程序的测试环境。

我通常使用Chrome的开发模式，IMHO已经提供了比Firefox更多的细节。

网友

3楼 · 编辑于 2024-06-17 05:57:41

要抓取动态内容，不需要简单的抓取器，而需要成熟的headless browser。

dhamaniasad/HeadlessBrowsers: A list of (almost) all headless web browsers in existence是我见过的这些语言中最完整的一个列表；它列出了每种语言有哪些绑定。

（请注意，所列项目中有多个已放弃！）

相关问题更多 >

编程相关推荐

热门问题

热门文章

用python抓取动态内容

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >