如何从我的文本文件中删除HTML文本

2024-09-28 05:27:16 发布

您现在位置：Python中文网/ 问答频道 /正文

6654

网友

男 | 程序猿一只，喜欢编程写python代码。

我需要从我的文本文件中删除HTML

这是我的密码

import requests
from bs4 import BeautifulSoup


url = 'https://psalmboek.nl/zingen.php?psID='
psalm = 1
url3 = '&psvID='
vers = 1
url5 = '#psvs'

end_psalm = 150
end_vers = 10

我找到了这个变量，但我不知道如何将它放入循环中

def remove_html_tags(text):
    """Remove html tags from a string"""
    import re
    clean = re.compile('<.*?>')
    return re.sub(clean, '', text)

诗篇+=1也可以重复到第150篇吗

while vers != end_vers:

    response = requests.get(url + str(psalm) + url3 + str(vers) + url5)

    soup = BeautifulSoup(response.text, "html.parser")
    soup.findAll('p')
    one_a_tag = soup.findAll('p')[0]
    f = open("psalm"+str(psalm)+"_"+"vers"+str(vers) +  ".txt","w+")
    f.write(str(one_a_tag))
    f.close
    vers += 1
    print (vers)

所以我需要删除来自一个标签的所有HTML代码

Tags： text from import re url html requests end

1条回答

网友

1楼 · 发布于 2024-09-28 05:27:16

如果我理解正确，您可以尝试以下代码：

    f.write(re.sub(re.compile('<.*?>'), '', str(one_a_tag)))

如何从我的文本文件中删除HTML文本

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从我的文本文件中删除HTML文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >