Python中文
首页
教程
问答
标签
搜索
登录
注册
使用Python从页面中删除HTML标记内容
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有一个HTML文件,如下所示:</p> <pre class="lang-html prettyprint-override"><code><!DOCTYPE HTML> <html> <head> <title>Sezione microbiologia</title> <link rel="stylesheet" src="./style.css"> </head> <body> <div id="content"> <section id="main"> <!-- SOME CONTENT... --> <h1>Prima diluizione</h1> <p>Some content including "prima diluizione"...</p> <h1>Seconda diluizione</h1> <p>Some content including "seconda diluizione"...</p> <h1>Terza diluizione</h1> <p>Some content including "terza diluizione"...</p> </section> <section id="second"> <!-- SOME CONTENT... --> </section> <section id="third"> <!-- SOME CONTENT... --> </section> <section id="footer"> <!-- SOME CONTENT... --> </section> </div> </body> </html> </code></pre> <p><strong>问题描述:</strong></p> <p>我试图修改包含单词<code>diluizione</code>的标题<code><h1></code>,以将这个单词及其前缀替换为“Diluizione serial”。我尝试使用Python <code>replace()</code>来实现这一点,问题是<code><p></code>段落中的行都被截断了,而我只希望修改h1标记中的行。除此之外,我还没有找到一种自动去掉前缀的方法,即“Prima”、“Seconda”、“Terza”等</p> <p><strong>我尝试使用的代码</strong></p> <p>我现在想到了这个:</p> <pre class="lang-py prettyprint-override"><code>with open('./home.html') as file: text = file.read() if "diluizione" in text: text = text.replace("diluizione", "diluizione seriale") </code></pre> <p>但这会产生:</p> <pre class="lang-html prettyprint-override"><code><div id="content"> <section id="main"> <!-- SOME CONTENT... --> <h1>Prima diluizione seriale</h1> <p>Some content including "prima diluizione seriale"...</p> <h1>Seconda diluizione seriale</h1> <p>Some content including "seconda diluizione seriale"...</p> <h1>Terza diluizione seriale</h1> <p>Some content including "terza diluizione seriale"...</p> </section> </code></pre> <p>如您所见,即使是<code><p></code>标记中的文本也会受到影响,前缀的标题仍然存在</p> <p>我的<strong>期望输出将是:</p> <pre class="lang-html prettyprint-override"><code><div id="content"> <section id="main"> <!-- SOME CONTENT... --> <h1>Diluizione seriale</h1> <p>Some content including "prima diluizione"...</p> <h1>Diluizione seriale</h1> <p>Some content including "seconda diluizione"...</p> <h1>Diluizione seriale</h1> <p>Some content including "terza diluizione"...</p> </section> </code></pre> <p>非常感谢您的任何帮助或建议,提前表示感谢</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>看看<a href="https://docs.python.org/3/library/html.parser.html" rel="nofollow noreferrer">html.parser</a>。与其尝试进行sting插值,不如将HTML解析为一个结构,然后从那里遍历它</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么在使用strptime时会出现未进行转换的数据错误?
4 回答
为什么在使用strptim时会出现这个datetime日期错误
1 回答
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
1 回答
为什么在使用sum()函数时会发生“int”对象不可调用的错误?
3 回答
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”?
1 回答
为什么在使用tabla时会得到一个空的数据帧?
5 回答
为什么在使用tensorboard时需要add_graph()的第二个参数?
2 回答
为什么在使用TensorFlow Lite转换YOLOv4时,推断时间/大小没有改进?有什么可能的改进吗?
10 回答
为什么在使用Tensorflow加载训练批时会出现内存泄漏?
10 回答
为什么在使用tensorflow时会收到警告/错误(使用函数API,但未实现错误)
9 回答
为什么在使用tetpyclient发出POST请求时出现403错误?
1 回答
为什么在使用TextBlob时会出现HTTP错误?
10 回答
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature?
8 回答
为什么在使用timedelta格式化之后,我在python中的日期是错误的?
9 回答
为什么在使用timeit或exec函数时,函数中的变量不会在提供的全局命名空间中搜索?
1 回答
为什么在使用tkinter时不能使用复选框?
4 回答
为什么在使用todoistpythonapi时会返回这个奇怪的ID?
6 回答
为什么在使用TQM时,在调整图像大小时,处理时间会有很大的差异?
7 回答
为什么在使用Tweepy下载用户时间线时收到错误消息
3 回答
为什么在使用twitter帐户登录Django应用程序时重定向127.0.0.1:8000?
9 回答