使用lxml和XPath抓取href标题

from lxml import html import requests for i in range(44,530): # Number of pages plus one url = "http://postscapes.com/companies/r/{}".format(i) page = requests.get(url) tree = html.fromstring(page.content) contactemail = tree.xpath('//*[@id="rt-mainbody"]/div/div/div[2]/div[4]/address/a') print contactemail

1条回答

网友

1楼 · 发布于 2024-10-04 03:23:31

有一些可能的方法可以提取相同的值，即电子邮件地址，例如：

# get email address from inner text of the element :
print contactemail[0].text

# get email address from href attribute + substring-after() :
print contactemail[0].xpath('substring-after(@href, "mailto:")')

如果在一个address父元素中可能有多个a元素，则可以使用列表理解语法：

print [link.text for link in contactemail]

编程相关推荐

Java中全局访问的设计模式
c#帮助理解如何调用不同类型的测试
java ADF从txt文件读取数据并分配给变量
java作为一个服务类，我看到了安卓。所容纳之物ActivityNotFoundException:找不到显式活动类
事件处理，数据结构和程序设计，java
java JFrame“阻塞”显示（）
java如何根据从第一个select标记中选择的值填充第二个struts2 select标记？
java中过滤流的隐式契约是什么？
java Beanshell不相等语句
java Play框架项目组合

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用lxml和XPath抓取href标题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >