Python–从websi中提取某些链接

2024-10-02 22:38:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从website中提取某些链接

为了提取所有链接,我尝试了:

import urllib
import xml.etree.ElementTree as ET
from BeautifulSoup import *

url = 'http://pdok.bundestag.de/index.php?qsafe=&aload=off&q=kleine+anfrage&x=0&y=0&df=22.10.2013&dt=13.01.2016'
uh = urllib.urlopen(url)
data = uh.read()
soup=BeautifulSoup(data)
soup.prettify()

for href in soup.findAll('a'):
    print href

现在,我得到了一个链接列表,但是由于某些原因,我没有得到tbody中的重要链接。我也尝试过使用ElementTree,但是我在读取链接时遇到了一个错误,因为它使用了一些无效的符号。非常感谢您的帮助!:)


Tags: importurldata链接aswebsitexmlurllib
1条回答
网友
1楼 · 发布于 2024-10-02 22:38:10

urllib在关闭Javascript的情况下加载网站的HTML。您试图在tbody中获取的链接是由JavaScript呈现的,因此不要加载

您可以通过关闭浏览器中的JavaScript并访问网站来复制这种行为。如果您经常刮,您可能希望下载一个浏览器插件,它允许您快速打开和关闭JavaScript

要抓取用JavaScript加载HTML内容的网站,您可能希望探索浏览器自动化选项,例如selenium

相关问题 更多 >