使用python删除特定的html标记

miniTable='<table style="width: 100%%" bgcolor="%s"> <tr><td><font color="%s"><b>%s</b></td></tr> </table>' % ( bgcolor, fontColor, floatNumber) html += '<td>' + miniTable + '</td>'

2条回答

网友
1楼 · 编辑于 2024-10-01 15:28:27

Do not use str.replace or regex.
使用像Beautiful Soup这样的html解析库，获取所需的元素和包含的文本。在
最后的代码应该是这样的
from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc) for t in soup.find_all("table"): # the actual selection depends on your specific code content = t.get_text() # content should be the float number

网友
2楼 · 编辑于 2024-10-01 15:28:27

如果您无法安装和使用Beautiful Soup（否则首选BS，正如@otto allmendinger提议的那样）：
import re s = '<table style="width: 100%%" bgcolor="%s"><tr><td><font color="%s"><b>1.23</b></td></tr></table>' result = float(re.sub(r"<.?table[^>]*>|<.?t[rd]>|<font[^>]+>|<.?b>", "", s))

编程相关推荐

pdf生成如何使用java从pdf文档中读取或提取图形组件，如正方形、矩形、直线等？
swing使用Java文件选择器导入文件
java MySQL插入未执行的行
如何在java中遍历字符串而不使用任何内置方法？
在java中初始化字节[]
如何在Java中以非阻塞方式列出目录中的文件？
从HBase读取时发生java空指针异常
java作为媒体/闹钟/铃声播放声音？
java获取内角
java将密钥对导入现有密钥对文件

相关问题更多 >

编程相关推荐

热门问题

热门文章