Python–从websi中提取某些链接

import urllib import xml.etree.ElementTree as ET from BeautifulSoup import * url = 'http://pdok.bundestag.de/index.php?qsafe=&aload=off&q=kleine+anfrage&x=0&y=0&df=22.10.2013&dt=13.01.2016' uh = urllib.urlopen(url) data = uh.read() soup=BeautifulSoup(data) soup.prettify() for href in soup.findAll('a'): print href

1条回答

网友

1楼 · 发布于 2024-10-02 22:38:10

urllib在关闭Javascript的情况下加载网站的HTML。您试图在tbody中获取的链接是由JavaScript呈现的，因此不要加载

您可以通过关闭浏览器中的JavaScript并访问网站来复制这种行为。如果您经常刮，您可能希望下载一个浏览器插件，它允许您快速打开和关闭JavaScript

要抓取用JavaScript加载HTML内容的网站，您可能希望探索浏览器自动化选项，例如selenium

编程相关推荐

未处理java Google PubSub-resent消息
java CannotAcquireLockException+LockAcquisitionException
atlassian fisheye如何处理“C:\Program Files\Java\jre7\bin\server\JVM.dll”中缺少“服务器”JVM的问题
jboss 6.3 eap linux环境中ear部署中的java问题
java SQL顺序字符串主键
java ascii shift程序几乎适用于整个字符串
java中excel工作表中的一条记录插入多条记录所需的sql逻辑
java这个方法如何计算Rational（1）。hashCode（）？1的分子或分母本身就是1
java为什么在循环中的数组中分配引用后会出现NullPointerException？
java Seam 2中内置工厂的优势是什么

相关问题更多 >

编程相关推荐

热门问题

热门文章