2024-10-02 00:38:44 发布
网友
无可否认,我是Python的初学者和中级高手,也是美化群像/网页抓取的新手。然而,我已经成功地构建了两个刮刀。正常标签=无问题(例如,div、a、li等)
但是,找不到如何使用.select或.find或attrs=“”或任何内容引用此标记:
。。。。。。。。。。 <;反应类型=“sad”msgid=“25314120”num=“2” ..........
我最终想要这个看起来像“num”属性的东西,不管这个可怕的东西是什么。。。“反应”标签(尽管我不认为这是一件事?)
.find()的工作方式与其他标签(如div、p和a)的工作方式相同。因此,我们搜索“react”标记
.find()
div
p
a
react_tag = soup.find('react')
然后,像这样访问num属性
num
num_value = react_tag['num']
应打印:
2
用户“sn”是正确的!这些是动态创建的javascript,我对此一无所知,但很容易理解。同时使用Python中的SeleniumLibrary和“headless”WebChromeDriver,您可以使用诸如Xpath等Selenium选择器来查找这些标记
根据bs4 Documentation.find('tag')返回单个标记.find_all('tag')返回html格式的标记列表
.find('tag')
.find_all('tag')
在您的情况下,如果有多个react标记,请使用此选项
for reactTag in soup.find_all('react'): print(reactTag.get('num'))
要仅获取第一个标记,请使用此
print(soup.find('react').get('num'))
.find()
的工作方式与其他标签(如div
、p
和a
)的工作方式相同。因此,我们搜索“react”标记然后,像这样访问
num
属性应打印:
用户“sn”是正确的!这些是动态创建的javascript,我对此一无所知,但很容易理解。同时使用Python中的SeleniumLibrary和“headless”WebChromeDriver,您可以使用诸如Xpath等Selenium选择器来查找这些标记
根据bs4 Documentation
.find('tag')
返回单个标记.find_all('tag')
返回html格式的标记列表在您的情况下,如果有多个react标记,请使用此选项
要仅获取第一个标记,请使用此
相关问题 更多 >
编程相关推荐