BeautifulSoup解析返回空s

for url in urls: rawMechSiteInfo = mech.open(url) #mechanize browse each url mech_response = mech.response() headers = mech_response.info() print "headers ", headers.getheader('Content-Type').encode('utf-8') return

3条回答

网友
1楼 · 编辑于 2024-10-02 18:14:36

我以前从未使用过mechanize，我一直在使用urllib2和beautifulsoup4。我多次遇到编码和解码问题。也许我的一些经验会有所帮助。在
当您从页面elem.text读取文本时，默认值始终是unicode。有时人们会有好运直接在屏幕上打印unicode，一切都很好。有时，控制台无法正确显示unicode。它表示两件事：
您已经在中准备好了数据，唯一的问题是您希望在IDE中看到它（Eclipse、Pycharm等等），它将无法工作。您可以不做任何事情就将unicode写入数据库或文件，有时当您看到IDE外部的数据时，它会正确显示。
如果您想在编写代码时先看到文本（谁不想呢？）你可以print elem.text.encode('utf-8')，我一直很幸运。

网友
2楼 · 编辑于 2024-10-02 18:14:36

检查headers变量的输出并返回报告，您似乎仍然有错误的编码：
def url_list(self): #setup mechanize ### ### Mechanize settings are here. ### for url in urls: rawMechSiteInfo = mech.open(url) #mechanize browse each url mech_response = mech.response() headers = mech_response.info() print "headers ", headers.getheader('Content-Type') #results = unicode(mech_response.read()) #BSObjOfUrl = BeautifulSoup(results) #HarvestLinks = BSObjOfUrl.find_all(u'cite', class_='vurls') #return HarvestLinks return

网友
3楼 · 编辑于 2024-10-02 18:14:36

看看文档，attrs是一个设计糟糕的参数，应该更像是一个**kwargs。在

http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class表示实际要传递类\kwarg:

>>> from bs4 import BeautifulSoup
>>> src = """ <div class="s">
...    <div>
...       <div class="f kv" style="white-space:nowrap">
...          <cite class="vurls">www.somewebsite.com/</cite>\U+200E
...       </div>
...    </div>
... </div>
...
... """
>>> soup = BeautifulSoup(src)
>>> soup.find_all('cite')
[<cite class="vurls">www.somewebsite.com/</cite>]
>>> soup.find_all('cite', attr={'class': 'vurls'})
[]
>>> soup.find_all('cite', class_='vurls')
[<cite class="vurls">www.somewebsite.com/</cite>]

相关问题更多 >

编程相关推荐

热门问题

热门文章