beauthulsoup只在td标记中获取“general”文本，而在嵌套标记中什么也得不到

2条回答

网友

1楼 · 编辑于 2024-10-01 13:42:15

另一个方法，与tag.contents[0]不同，它保证文本是 NavigableString而不是子Tag内的文本是：

[child for tag in soup.find_all("td") 
 for child in tag if isinstance(child, bs.NavigableString)]

以下是一个突出差异的示例：

^{pr2}$

或者，对于lxml，可以使用XPath td/text()：

import lxml.html as LH

content = '''
<td>Potato1 <span>Potato2</span></td>
<td><span>FOO</span></td>
<td><span>Potato10</span>Potato9</td>
'''
root = LH.fromstring(content)

print(root.xpath('td/text()'))

收益率

['Potato1 ', 'Potato9']

网友

2楼 · 编辑于 2024-10-01 13:42:15

您可以使用^{}作为

>>> for tag in soup.find_all("td"):
...     print tag.contents[0]
...
Potato1
Potato9

它的作用是什么？

标记子级可以使用.contents作为列表使用。在

^{pr2}$

因为我们只对第一个元素感兴趣，所以我们

print tag.contents[0]

编程相关推荐

尝试在jave中上载图像时出现java NoSuchFileException
在Weka Java API中创建字符串属性
java如何重写toString并打印ArrayList的自定义类类型
java您在RegistrySpec中放了什么。用于Izpack安装以设置发布服务器字段的xml
持久性查询中的java异常
铸造（Java）为什么是数学。ceil（15/10）是1.0而不是2.0？
Rest设计的javascript正则表达式
java无法构建实际的Intellij IDEA社区版
ssl从openssl自签名证书文件创建Java密钥库
java将在IntelliJ上开发的Spring boot javascript web应用程序连接到Chrome的JetBrains扩展进行调试

相关问题更多 >

编程相关推荐

热门问题

热门文章

beauthulsoup只在td标记中获取“general”文本，而在嵌套标记中什么也得不到

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >