使用python处理HTML标记

2条回答

网友

1楼 · 编辑于 2024-10-01 15:36:22

另一个使用BeautifulSoup的解决方案：

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('htmlfile'))

for elem in soup.find_all('span', class_='finereader'):
    elem.replace_with(elem.string or '') 

print(soup.prettify())

网友

2楼 · 编辑于 2024-10-01 15:36:22

您可能希望查看beautifulsoup，而不是为此任务使用正则表达式。在

然后您可以这样做：（在本例中使用一个字符串作为html文件）

from bs4 import BeautifulSoup

html_doc = """
<html>
<head>
<title>Sample</title>
</head>
<body>
<span class="dummy">a</span>
<span>b</span>
</body>
</html>
"""
soup = BeautifulSoup(html_doc)
for span in soup.find_all('span'):
    print(span.string)

# output:
# a
# b

编程相关推荐

java WeakHashMap的实际用途是什么？
从JavaScript中的输入中获取一个值，并在Java中使用它
JavaJDBI支持带out参数的存储过程
用于识别for/while循环的java ASM字节码
java如何一次访问拆分字符串的两个元素？
从数据库加载详细信息时光标出现java错误
JavaSpring在运行时注册作用域bean
java我将加密文本写入程序中的一个文件，但无法解密该文件中的文本
java从JAR文件访问源文件
java如何更改安卓应用程序中屏幕活动的时间（始终处于活动状态、充电时处于活动状态、正常）

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用python处理HTML标记

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >