BeautifulSoup意外匹配<！doctype>

from bs4 import BeautifulSoup, SoupStrainer text = """<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <div></div> <div class='detail'></div> <div></div> <div class='detail'></div> <div></div>""" for div in BeautifulSoup(text, 'lxml', parse_only = SoupStrainer('div', attrs = { 'class': 'detail' })): print(div)

from bs4 import BeautifulSoup, SoupStrainer, Doctype ... for div in BeautifulSoup(text, 'lxml', parse_only = SoupStrainer('div', attrs = { 'class': 'detail' })): if type(div) is Doctype: continue

def soup_strainer(text): [div for div in BeautifulSoup(text, 'lxml', parse_only = SoupStrainer('div', attrs = { 'class': 'detail' })) if type(div) is not Doctype] def find_all(text): [div for div in BeautifulSoup(text, 'lxml').find_all('div', { 'class': 'detail' })] from timeit import timeit print( timeit('soup_strainer(text)', number = 1000, globals = globals()) ) # 38.091634516923584 print( timeit('find_all(text)', number = 1000, globals = globals()) ) # 65.1686057066947

1条回答

网友

1楼 · 发布于 2024-10-03 11:23:08

我认为您不需要在这个任务中使用SoupStrainer。相反，内置的findAll方法应该能满足您的需要。下面是我测试过的代码，似乎运行良好：

[div for div in BeautifulSoup(text, 'lxml').findAll('div', {'class':'detail'})]

这将创建您要查找的div的列表，不包括{}

希望这有帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章