带着美丽的团队逃离&hellip

2024-09-27 04:28:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在使用BeautifulSoup来抓取一些网站,但是我对一些特定的字符有问题,UnicodedAmm里面的代码似乎表明这(再次)是微软发明的。在

我使用的是beauthulsoup(3.0.8.1)的最新版本,因为我仍然使用python2.5

以下代码说明了我的问题:

from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…')
print soup

'...Baby One More Time (Digital Deluxe Version…'

正如您所看到的,问题是末尾的“…”(&hellip)字符(您的浏览器可能正确地转义了该字符)。很明显,我不感兴趣。在

如果有这个字符unicode表示或其他什么的话,那就太好了。 即使完全无视它也能解决我的特殊问题。在

我怎么能用BeautifulSoup做到这一点?在


Tags: 代码time网站versionmore字符onebaby
2条回答

我自己找到了解决办法:

soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…', convertEntities="html")

微软可能发明了它,但是…是html4的一部分:http://www.w3.org/TR/REC-html40/sgml/entities.html

也许您的Lib/htmlentitydefs.py丢失或过期,因为beauthoulsoup正是用这个来转换实体的。在

如果您查看the Python 2.5 source tree,您将清楚地看到它定义在第126行。在

相关问题 更多 >

    热门问题