我需要从我的文本文件中删除HTML
这是我的密码
import requests
from bs4 import BeautifulSoup
url = 'https://psalmboek.nl/zingen.php?psID='
psalm = 1
url3 = '&psvID='
vers = 1
url5 = '#psvs'
end_psalm = 150
end_vers = 10
我找到了这个变量,但我不知道如何将它放入循环中
def remove_html_tags(text):
"""Remove html tags from a string"""
import re
clean = re.compile('<.*?>')
return re.sub(clean, '', text)
诗篇+=1也可以重复到第150篇吗
while vers != end_vers:
response = requests.get(url + str(psalm) + url3 + str(vers) + url5)
soup = BeautifulSoup(response.text, "html.parser")
soup.findAll('p')
one_a_tag = soup.findAll('p')[0]
f = open("psalm"+str(psalm)+"_"+"vers"+str(vers) + ".txt","w+")
f.write(str(one_a_tag))
f.close
vers += 1
print (vers)
所以我需要删除来自一个标签的所有HTML代码
如果我理解正确,您可以尝试以下代码:
相关问题 更多 >
编程相关推荐