我应该使用什么纯Python库来抓取网站？

2024-09-26 17:50:35 发布

男 | 程序猿一只，喜欢编程写python代码。

我现在有一些Ruby代码用来抓取一些网站。我使用Ruby是因为当时我在一个网站上使用rubyonrails，这很有意义。在

现在我正试图把这个移植到googleappengine上，然后一直被卡住。在

我已经将pythonmachineze移植到googleappengine上，但是它不支持使用XPATH进行DOM检查。在

我尝试过内置的ElementTree，但它在遇到“&mdash”时被我给出的第一个HTML blob阻塞了。在

我是一直尝试在那里破解ElementTree，还是尝试使用其他东西？在

谢谢，马克

Tags：代码网站 html xpath blob 内置 dom 意义

3条回答

网友

1楼 · 编辑于 2024-09-26 17:50:35

lxml—比elementtree好100倍

网友

2楼 · 编辑于 2024-09-26 17:50:35

靓汤。在

网友

3楼 · 编辑于 2024-09-26 17:50:35

还有scrapy，可能更适合你。在