为什么有些html标签在抓取时是不可见的？

<div class="line"> <a id="tln-2212" href="index.html#tln-2212" class="milestone tln invisible" title="TLN: 2212">2212</a> When s uch ill dealing mu s t be s eene in thought. Exit . </div>

import requests from bs4 import BeautifulSoup as bs url = 'https://internetshakespeare.uvic.ca/doc/R3_F1/scene/3.6/index.html' page = requests.get(url) text = bs(page.text, 'html.parser') divs = text.find_all('div', class_="line") for div in divs: for item in div.contents: print(item)

When s uch ill dealing mu st be s eene in thought. Exit.

2条回答

网友

1楼 · 编辑于 2024-09-30 18:32:38

在执行代码时稍作调整（必须导入请求模块），您应该获得站点的内容。你知道吗

from bs4 import BeautifulSoup as bs
import requests

url = 'https://internetshakespeare.uvic.ca/doc/R3_F1/scene/3.6/index.html'
page = requests.get(url)
text = bs(page.text, 'html.parser')

divs = text.find_all('div', class_="line")
for div in divs:
    for item in div.contents: print(item)

文本可以在标记中找到。您可以使用浏览器的检查器检查这一点。文本以一小部分一小部分的标签传递，例如“哪一部分在a中”。你应该能够提取文本。你知道吗

网友

2楼 · 编辑于 2024-09-30 18:32:38

在line类的级别上工作，但是分解a标记以便删除行号（除非您真的需要它们），在这种情况下，我会在它们和下面的文本之间添加空格

import requests
from bs4 import BeautifulSoup as bs

r = requests.get('https://internetshakespeare.uvic.ca/doc/R3_F1/scene/3.6/index.html')
soup = bs(r.content, 'lxml')

for line in soup.select('.line'):
    line.select_one('a').decompose()
    print(line.text)

相关问题更多 >

编程相关推荐

热门问题

热门文章