在BeautifulSoup4中获取标记之间的句子长度

url = 'https://www.rohm.com/products/wireless-communication/wireless-lan-modules/bp3580-product#' with urllib.request.urlopen(url) as url: page = url.read() soup = BeautifulSoup(page, features='lxml') # [print(tag.name) for tag in soup.find_all()] for script in soup(["script", "style"]): script.decompose() # rip it out invalid_tags = ['br'] for tag in invalid_tags: for match in soup.findAll(tag): match.replaceWithChildren() html = soup.find_all(recursive=False) for tag in html: print(tag.get_text())

1条回答

网友
1楼 · 发布于 2024-10-02 10:24:39

它可能不是你执行的结果，但至少它给了你一个提示。我修改了你的代码。你知道吗
url = 'https://www.rohm.com/products/wireless-communication/wireless-lan-modules/bp3580-product#' with urllib.request.urlopen(url) as url: page = url.read() soup = BeautifulSoup(page, features='lxml') for script in soup(["script", "style"]): script.decompose() # rip it out invalid_tags = ['br'] for tag in invalid_tags: for match in soup.findAll(tag): match.replaceWithChildren() html = soup.find_all(recursive=False) textlist = [] for tag in html: text = tag.text.replace("\r","").replace("\t","").split("\n") for t in text: if t != '': textlist.append(t) for tt in textlist: print(tt) for ts in tt.split(): print ("{}, {}".format(ts,len(tt.split())-1)) print(" -")

相关问题更多 >

编程相关推荐

热门问题

热门文章