仅在HTML文件中的特定单词后删除部分文本

from bs4 import BeautifulSoup from re import findall file = open('filename.html', encoding= "UTF-8") soup = BeautifulSoup(file, 'lxml') for match in soup.find_all('div', class_='discussion-desc'): recom = match.text re.findall(r'@(\w+)','recommendations') #['recommendations', 'steps'] #re.findall(r'@(\w+)', 'recommendations') #[] #(re.findall(r'@(\w+)', 'recommendations') or None,)[0] #'recommendations' #print (re.findall(r'@(\w+)', 'recommendations') or None,)[0] #None

1条回答

网友

1楼 · 发布于 2024-10-05 14:31:20

在单一发生的情况下，您可以使用：re.search()：

s = "Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc fringilla arcu congue metus aliquam mollis. Mauris nec maximus purus. Maecenas sit amet pretium tellus. Quisque at dignissim lacus"

re.search(r'mollis\.(.*?)Quisque at dignissim lacus', s).group(1)

输出：

Out[28]: ' Mauris nec maximus purus. Maecenas sit amet pretium tellus. '

如果发生多次，请查看re.findall()

相关问题更多 >

编程相关推荐

热门问题

热门文章