我正试图编写一个Python脚本来处理所有joyo kanji。但是,我的脚本只获取表的前504个元素。整个表有2136个元素。此脚本演示了问题:
from bs4 import BeautifulSoup
from urllib2 import urlopen
url = "http://en.wikipedia.org/wiki/List_of_j%C5%8Dy%C5%8D_kanji"
soup = BeautifulSoup(urlopen(url))
print soup.prettify()
表中显示的最后一个元素是:
^{pr2}$然而,当我在chrome中查看这个表时,我看到了元素504的这个
<tr>
<td>504</td>
<td style="font-size:2em">
<a href="//en.wiktionary.org/wiki/%E6%BF%80" class="extiw" title="wikt:激">激</a>
</td>
...
我希望表的最后一个元素是2136元素。在
看起来您安装了
lxml
或libxml
(进行解析的实际C库)的损坏版本。在在python2.7.9上,使用
lxml
3.4.2和libxml2
版本2.9.0,我可以很好地解析该页面。在您可以告诉BeautifulGroup使用标准库解析器:
有关转换解析器的含义,请参见Installing a parser。在
相关问题 更多 >
编程相关推荐