（python）使用漂亮的soup解析某些HTML输出标记

2条回答

网友

1楼 · 编辑于 2024-09-24 22:26:23

使用lxml而不是BeautifulSoup：

>>> from lxml.html import parse
>>> tree = parse("http://www.reference.com/wordoftheday")
>>> tree.xpath("//h2")[0].text
'nosh'

网友

2楼 · 编辑于 2024-09-24 22:26:23

使用.text属性获取内部文本，并改用find()方法：

>>> from BeautifulSoup import BeautifulSoup
>>> from urllib2 import urlopen
>>> soup = BeautifulSoup(urlopen('http://www.reference.com/wordoftheday'))
>>> soup.find('h2').text
u'nosh'

编程相关推荐

javaelk：如何在Kibana中按异常类对stacktrace进行分组
java两个组件使用MigLayout相互重叠
java Hibernate标准获取关联实体的列表，而不是父实体的列表
从Java关闭另一个应用程序，但不是由当前Java应用程序启动
java使用OGNL获取参数
java如何在SSLEngine中启用密码TLS\U DHE\U RSA\U和\U AES\U 256\U GCM\U SHA384
在Java中有效地比较两个列表<Object[]>
java杀死挂起的线程
在java中从指定模式前后的字符串中提取子字符串
存储整数的java HashMap替代方案

相关问题更多 >

编程相关推荐

热门问题

热门文章

（python）使用漂亮的soup解析某些HTML输出标记

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >