用BeautifulSoup打破标签边界上的单词

2条回答

网友

1楼 · 编辑于 2024-09-28 20:19:38

你可以用replace_with()方法（docs here）修补你的汤。但这取决于HTML的结构：

from bs4 import BeautifulSoup

data = '''
<html><body><span>word1</span><span>word2</space>
'''

soup = BeautifulSoup(data, 'lxml')
for span in soup.select('span'):
    span.replace_with(span.text + ' ')

print(soup.text.strip())

这张照片：

word1 word2

网友

2楼 · 编辑于 2024-09-28 20:19:38

您可以使用^{}：

from bs4 import BeautifulSoup

html_doc = """
<!DOCTYPE html><html lang="en"><head><title>words</title></head><body><span>word1</span><span>word2</span></body></html>
"""

soup = BeautifulSoup(html_doc, 'lxml')
for span in soup.find_all('span'):
    print(span.text)

分别打印<span>标记之间的文本：

word1
word2

编程相关推荐

java iText字体显示不正确
java使用ApacheFTPClient通过代理连接到FTP服务器
java是在类常量池、字符串池还是年轻一代中为字符串文本分配的空间？GC何时可以访问字符串文字？
java如何读取excel文件并将值设置为null
验证。包含在Java中不用于验证电子邮件格式的（“@”）
两个服务器实例上的java Hibernate主键冲突
java我无法在For循环（JavaFX）中设置按钮文本
单独SocketChannels的java并发读取（）对于大型字节缓冲区速度较慢
OpenPDF java分组元素以保持在同一页面上
java将组件放置在任意（x，y）坐标处

相关问题更多 >

编程相关推荐

热门问题

热门文章

用BeautifulSoup打破标签边界上的单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >