我怎么能忽略在BeautifulSoup中其他HTMLtag之间编写的HTML标记呢？

Reintext = [] for line in html: try: soup = bs(line, 'lxml') re = ','.join(p.text for p in soup.find_all('p', class_=False, id=False)) j = re.replace('\n', '') g = ' '.join(j.split()) Reintext.append(g) except: print(line)

1条回答

网友

1楼 · 发布于 2024-09-19 23:48:09

您可以通过使用find函数并只保留NavigableString对象（在HTML中表示纯文本）来实现这一点

from bs4 import BeautifulSoup as bs
import bs4
html = ['<p> text text text. (<a href = bla> bla </a>) </p>']

for line in html:
    soup = bs(line, 'lxml')
    external_span = soup.find('p')
    text = []
    for x in external_span:
        if isinstance(x, bs4.element.NavigableString):
            text.append(x.strip())
    print(" ".join(text))
#text text text. ( )

编程相关推荐

java Mac OS无法运行。Jar文件
Eclipse中java不可引发的POM错误
java指定用于bean的验证组
并发性如何确保Java方法中2条语句的顺序和完整执行
java为什么在抽象类中需要构造函数？
java使用链接打开我的Android应用程序
java允许在用户使用代码时选择一个或另一个名称
在Java中插入日期以访问数据库
将GWT RequestFactory与Grails一起使用时出现java类加载器问题
java JPA开始事务瓶颈

相关问题更多 >

编程相关推荐

热门问题

热门文章

我怎么能忽略在BeautifulSoup中其他HTMLtag之间编写的HTML标记呢？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >