从一个页面打印html并不能显示python和urllib2的所有源页面

req = urllib2.Request('http://www.amazon.com/Upright-Citizens-Brigade-Comedy-Improvisation/dp/0989387801/ref=lp_1_1_6/175-0367440-7496156?ie=UTF8&qid=1376827779&sr=1-6%20buybox._V181901516_.png)%20center%20top%20no-repeat;') req.add_header('User-agent', 'Mozilla/5.0\ (Windows NT 6.2; WOW64) AppleWebKit/537.11 (KHTML, like Gecko)\ Chrome/23.0.1271.97 Safari/537.11') response=urllib2.urlopen(req) html = response.read() print html

1条回答

网友

1楼 · 发布于 2024-06-21 20:04:06

您应该使用html解析器，如lxml或BeautifulSoup。下面是一个使用lxml的示例：

parser = etree.HTMLParser()
root = etree.fromstring(html, parser=parser)

print root.xpath('//td[@class="a-text-right dp-new-col"]/a/span/text()')[0]

印刷品：

$25.00

请注意，所需的标记及其值是使用xpath表达式找到的：

XPath, the XML Path Language, is a query language for selecting nodes from an XML document.

另请参见：

Parsing HTML using Python
Parsing HTML in Python

希望有帮助。你知道吗

编程相关推荐

java类StatusCode扩展了枚举<StatusCode>
尝试将JavaFX与Hibernate集成时出现java错误
java对列表进行排序需要很多时间
数组在JSONArray（JSONSimple/JAVA）中创建JSONObject
java试图从控制台识别非重复值，并将非重复值打印到输出
java在DoFn（apache crunch）中传递映射（或并发hashmap）
java操作栏自定义组件（自定义开关）未与actionLayout一起显示
java我在一个布局中创建了两个回收器视图，我有nullPointerException
java我应该在目标目录中放置什么？
数据存储应用程序引擎和objectify中的java持久化关系

相关问题更多 >

编程相关推荐

热门问题

热门文章