抓取中的python HTML自定义标记

import requests from bs4 import BeautifulSoup soup = BeautifulSoup(open('test.html'), 'html.parser') people = soup.find('div', id='search-results') items = people.find_all('figure') #print(items) print(items[0].find('h1').get_text()) print(items[0].find('h3').get_text()) email = soup.find('a', attrs={"data-ldpemail" : "x"}) email = email.attrs['data-ldpemail'] print(email)

1条回答

网友

1楼 · 发布于 2024-09-30 20:37:26

由于您没有提供任何代码来演示您是如何到达目的地的，我假设您知道如何隔离所需的“a”标记

需要注意的是，在示例中，“data ldpmail”不是标记，而是“a”（锚定）标记的标记属性。假设您隔离了一个具有该属性的标记，然后提取该属性的值：

a_tag.attrs['data-ldpemail']

bs4.element.Tag.attrs将返回一个字典，其中包含标记的所有属性作为键，每个标记的值作为字典值。然后我们只访问属性字典的键

一句话可以从一些汤中获取全部：

email_list = [tag.attrs.get('data-ldpemail') for tag in soup.find_all('a') if tag.attrs.get('data-ldpemail') is not None]

上面的一行代码所做的是查找整个soup对象中的所有锚定标记，迭代该集合，如果锚定标记具有“data ldpemail”属性，则将“data ldpemail”标记属性的值添加到email_list

相关问题更多 >

编程相关推荐

热门问题

热门文章