对Javascrip生成的网页进行爬网

1条回答

网友
1楼 · 发布于 2024-09-28 03:11:37

此页使用JavaScript添加此元素。使用Selenium我可以在添加这个元素之后获得HTML，然后我可以在HTML中搜索文本。这个HTML有奇怪的结构-所有的文本都在标签中，所以这个部分没有特殊的标签来找到它。但是它是这个标记中的最后一个文本，它以"Formation:"开始，所以我使用BeautifulSoup将所有文本与所有子标记一起使用get_text()进行转换，然后我可以使用split('Formation:')来获取这个元素后面的文本。你知道吗
import selenium.webdriver from bs4 import BeautifulSoup as BS driver = selenium.webdriver.Firefox() driver.get('https://www.archchinese.com/chinese_english_dictionary.html?find=%E4%B8%8E') soup = BS(driver.page_source) text = soup.find('div', {'id': "charDef"}).get_text() text = text.split('Formation:')[-1] print(text.strip())
也许Selenium工作较慢，但创建解决方案的速度更快。你知道吗
如果我能找到JavaScript用来加载数据的url，那么我会在没有Selenium的情况下使用它，但是我在XHR响应中没有看到这些信息。几乎没有经过压缩（可能是gzip）或编码的响应，可能有这个文本，但我没有尝试解压缩/解码它。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章