用Python查询网页

2024-10-02 04:36:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在用Python学习web编程,我正在做的一个练习是:我正在编写一个Python程序来查询网站。”orbitz.com公司“并返回最低机票。出发地和到达城市和日期用于构造URL。在

我使用urlopen命令执行此操作,如下所示:

(search_str包含URL)

from lxml.html import parse

from urllib2 import urlopen

parsed = parse(urlopen(search_str))

doc = parsed.getroot()

links = doc.findall('.//a')

the_link = (links[j].text_content()).strip()

其思想是从查询结果中检索所有链接,并搜索诸如“Delta”、“United”等字符串,并读取链接旁边的美元金额。在

它成功地工作到今天-看起来orbitz.com公司已更改其输出页。现在,当您在orbitz.com公司网站上,会出现一个显示轮子的页面,上面写着“查找行程”或类似的内容。这只是一个填充页,没有真正的信息。几秒钟后,将显示真实结果页面。不幸的是,Python代码每次都会返回填充页面的链接,我从来没有得到真正的结果。在

我怎么才能避开这个?我是一个相对初学者的网页编程,所以任何帮助是非常感谢。在


Tags: fromimportcomurlsearchparse网站链接
1条回答
网友
1楼 · 发布于 2024-10-02 04:36:38

这种事情在爬虫世界里很正常。在

你需要做的是找出在“行程页面”之后重定向到哪个url,然后直接从脚本中点击该url。在

然后弄清楚他们是否也更改了最终搜索结果页面,如果是,请修改脚本以适应这些更改。在

相关问题 更多 >

    热门问题