使用Python从页面中删除HTML标记内容问题的回答

使用Python从页面中删除HTML标记内容

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

<p>我有一个HTML文件，如下所示：</p> <pre class="lang-html prettyprint-override"><code><!DOCTYPE HTML> <html> <head> <title>Sezione microbiologia</title> <link rel="stylesheet" src="./style.css"> </head> <body> <div id="content"> <section id="main">  <h1>Prima diluizione</h1> <p>Some content including "prima diluizione"...</p> <h1>Seconda diluizione</h1> <p>Some content including "seconda diluizione"...</p> <h1>Terza diluizione</h1> <p>Some content including "terza diluizione"...</p> </section> <section id="second">  </section> <section id="third">  </section> <section id="footer">  </section> </div> </body> </html> </code></pre> <p><strong>问题描述：</strong></p> <p>我试图修改包含单词<code>diluizione</code>的标题<code><h1></code>，以将这个单词及其前缀替换为“Diluizione serial”。我尝试使用Python <code>replace()</code>来实现这一点，问题是<code><p></code>段落中的行都被截断了，而我只希望修改h1标记中的行。除此之外，我还没有找到一种自动去掉前缀的方法，即“Prima”、“Seconda”、“Terza”等</p> <p><strong>我尝试使用的代码</strong></p> <p>我现在想到了这个：</p> <pre class="lang-py prettyprint-override"><code>with open('./home.html') as file: text = file.read() if "diluizione" in text: text = text.replace("diluizione", "diluizione seriale") </code></pre> <p>但这会产生：</p> <pre class="lang-html prettyprint-override"><code><div id="content"> <section id="main">  <h1>Prima diluizione seriale</h1> <p>Some content including "prima diluizione seriale"...</p> <h1>Seconda diluizione seriale</h1> <p>Some content including "seconda diluizione seriale"...</p> <h1>Terza diluizione seriale</h1> <p>Some content including "terza diluizione seriale"...</p> </section> </code></pre> <p>如您所见，即使是<code><p></code>标记中的文本也会受到影响，前缀的标题仍然存在</p> <p>我的<strong>期望输出将是：</p> <pre class="lang-html prettyprint-override"><code><div id="content"> <section id="main">  <h1>Diluizione seriale</h1> <p>Some content including "prima diluizione"...</p> <h1>Diluizione seriale</h1> <p>Some content including "seconda diluizione"...</p> <h1>Diluizione seriale</h1> <p>Some content including "terza diluizione"...</p> </section> </code></pre> <p>非常感谢您的任何帮助或建议，提前表示感谢</p>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

使用Python从页面中删除HTML标记内容

1 个回答

相关Python问题