美化组截断选项卡 - 问答 - Python中文网

美化组截断选项卡

2024-10-02 04:34:30 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正试图编写一个Python脚本来处理所有joyo kanji。但是，我的脚本只获取表的前504个元素。整个表有2136个元素。此脚本演示了问题：

from bs4 import BeautifulSoup 
from urllib2 import urlopen

url = "http://en.wikipedia.org/wiki/List_of_j%C5%8Dy%C5%8D_kanji"
soup = BeautifulSoup(urlopen(url))

print soup.prettify()

表中显示的最后一个元素是：

^{pr2}$

然而，当我在chrome中查看这个表时，我看到了元素504的这个

<tr>
<td>504</td>
<td style="font-size:2em">
<a href="//en.wiktionary.org/wiki/%E6%BF%80" class="extiw" title="wikt:激">激</a>
</td>
...

我希望表的最后一个元素是2136元素。在

Tags： from org import 脚本 url 元素 wiki urlopen

1条回答

网友

1楼 · 发布于 2024-10-02 04:34:30

看起来您安装了lxml或libxml（进行解析的实际C库）的损坏版本。在

在python2.7.9上，使用lxml3.4.2和libxml2版本2.9.0，我可以很好地解析该页面。在

您可以告诉BeautifulGroup使用标准库解析器：

soup = BeautifulSoup(urlopen(url), 'html.parser')

有关转换解析器的含义，请参见Installing a parser。在

相关问题更多 >

编程相关推荐

热门问题

热门文章