我目前正在使用BeautifulSoup来抓取一些网站,但是我对一些特定的字符有问题,UnicodedAmm里面的代码似乎表明这(再次)是微软发明的。在
我使用的是beauthulsoup(3.0.8.1)的最新版本,因为我仍然使用python2.5
以下代码说明了我的问题:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…')
print soup
'...Baby One More Time (Digital Deluxe Version…'
正如您所看到的,问题是末尾的“…”(&hellip)字符(您的浏览器可能正确地转义了该字符)。很明显,我不感兴趣。在
如果有这个字符unicode表示或其他什么的话,那就太好了。 即使完全无视它也能解决我的特殊问题。在
我怎么能用BeautifulSoup做到这一点?在
我自己找到了解决办法:
微软可能发明了它,但是
…
是html4的一部分:http://www.w3.org/TR/REC-html40/sgml/entities.html也许您的
Lib/htmlentitydefs.py
丢失或过期,因为beauthoulsoup正是用这个来转换实体的。在如果您查看the Python 2.5 source tree,您将清楚地看到它定义在第126行。在
相关问题 更多 >
编程相关推荐