使用lxml和xpath解析Html

<div class="pdsc-l"> <table width="100%" cellspacing="0" cellpadding="0" border="0"> <tbody> <tr> <tr> <tr> <tr> <tr> <tr> <td width="35%" valign="top"> <font size="2" face="Arial, Helvetica, sans-serif">Brand</font> </td> <td width="65%" valign="top"> <font size="2" face="Arial, Helvetica, sans-serif">HTC</font> </td> </tr> <tr> <td width="35%" valign="top"> <td width="65%" valign="top">

This is my code: rawPage = urllib2.urlopen(request) read = rawPage.read() #print read tree = etree.HTML(read) for tr in tree.xpath("//tr"): print tr.xpath("//td//font[text()='Brand']/following::td[1]")

[<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>] [<Element td at 0x10ad80b90>]

from lxml import etree from lxml.html import fromstring, tostring url = 'http://www.ebay.com/ctg/111176858' request = urllib2.Request(url) rawPage = urllib2.urlopen(request) read = rawPage.read() #print read tree = etree.HTML(read) for tr in tree.xpath("//tr"): t = tr.xpath("//td//font[text()='Brand']/following::td[1]")[0] print tostring(t)

1条回答

网友

1楼 · 发布于 2024-05-21 16:57:23

在您的答案中的print语句的末尾附加一个[0].text应该可以满足您的需要。基本上，在您的问题中打印的是lxml.etree._Elements的单个元素列表，它们具有tag和text等属性，您可以使用这些属性来获得不同的属性。所以，试试看

tr.xpath("//td//font[text()='Brand']/following::td[1]")[0].text

相关问题更多 >

编程相关推荐

热门问题

热门文章