Python BeautifulSoup从pag获取内部链接

for tag in soupan.findAll('a', attrs={'href': re.compile("^http://")}): webpage = urllib2.urlopen(tag['href']).read() print 'Deep crawl ----> ' +str(tag['href']) try: code-to-look-for-some-data... except Exception, e: print e

2条回答

网友

1楼 · 编辑于 2024-09-30 10:34:13

给你的爬虫一些建议：将mechanize与BeautifulSoup结合使用，这将大大简化你的任务。在

网友

2楼 · 编辑于 2024-09-30 10:34:13

>>> import urllib
>>> print urllib.splithost.__doc__
splithost('//host[:port]/path')  > 'host[:port]', '/path'.

如果主机相同或主机为空（表示相对路径），则url属于同一主机。在

^{pr2}$

因为你这么做

'href': re.compile("^http://")

不会使用相对路径。他们就像

<a href="/folder/file.htm"></a>

也许根本不用re？在

编程相关推荐

java不能排除小于当前日期的日期
TabLayout中的java选项卡未填充整个ActionBar
java从树映射返回相邻键
java Selenium fluentWait导致StaleElementReferenceException
音频添加声音java
在GWT中使用Google Common Collection的java
Spring Boot中的java Log4j 2:JDBC appender不会将日志消息写入数据库的列
java一个句子中所有可能的单词排列
vba在Java中禁用答复和答复所有outlook选项
java如何在Mac上下载Eclipse？

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python BeautifulSoup从pag获取内部链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >