我正在用漂亮的汤解析HTML文档。
我正在从文档中提取<p>
标记。
然而,在<p>
标记之间是像<a href = 'bla'> bla <a>
这样的其他标记。
问题是,当我想忽略这些<a>
标记时,我的代码也会提取它们
示例:
html = ['<p> text text text. (<a href = bla> bla </a>) </p>']
我的代码:
Reintext = []
for line in html:
try:
soup = bs(line, 'lxml')
re = ','.join(p.text for p in soup.find_all('p', class_=False, id=False))
j = re.replace('\n', '')
g = ' '.join(j.split())
Reintext.append(g)
except:
print(line)
输出
Reintext = ['text text text. ( bla ) ,']
那么如何忽略Reintext输出中的(bla)部分呢
您可以通过使用
find
函数并只保留NavigableString
对象(在HTML中表示纯文本)来实现这一点相关问题 更多 >
编程相关推荐