我用beauthulsoup来抓取一些网页内容。在
我正在学习这个示例代码,但我总是得到“无”的响应。在
代码:
import urllib2
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://www.velocidadcuchara.com/2011/08/helado-platano-light.html').read())
post = soup.find('div', attrs={'id': 'topmenucontainer'})
print post
你知道我做错什么了吗?在
谢谢!!在
我认为你没有做错什么。在
这是第二个脚本标记,它混淆了beauthoulsoup。标签如下所示:
但BeatifulSoup似乎认为它仍在注释或其他内容中,并将文件的其余部分作为脚本标记的内容。在
尝试:
^{pr2}$你就会明白我的意思了。在
如果删除CDATA,则应该会发现页面解析正确:
你可以尝试使用lxml库。在
lxml article
你的HTML有点奇怪。但有时也不能很好的分析。在
尝试移动
<head>
内的第一个<link>
元素,这可能会有所帮助。在相关问题 更多 >
编程相关推荐