2024-09-27 07:18:21 发布
网友
这可能是一个很简单的任务,但我找不到任何帮助。我有一个网站,格式是www.xyz.com/somestuff/ID。我有一个需要信息的ID列表。我希望有一个简单的脚本去一个网站,并下载(完整的)每个ID的网页在一个简单的形式ID_默认的保存名称_是在一个特定的文件夹。
我可以运行一个简单的python脚本来完成这个任务吗?我可以用手做,只有75页,但我希望以后能用它来学习如何做这样的事情。
Mechanize是一个用python爬行web的好软件包。您的问题的一个简单示例是:
import mechanize br = mechanize.Browser() response = br.open("www.xyz.com/somestuff/ID") print response
这只需获取您的url并从服务器打印响应。
这可以在python中使用urllib模块简单地完成。以下是Python3中的一个简单示例:
import urllib.request url = 'www.xyz.com/somestuff/ID' req = urllib.request.Request(url) page = urllib.request.urlopen(req) src = page.readall() print(src)
有关urllib模块的详细信息->;http://docs.python.org/3.3/library/urllib.html
你只想要网站的html代码吗?如果是这样,只需创建一个带有宿主站点的url变量,并在运行时添加页码。我将以http://www.notalwaysright.com为例
import urllib.request url = "http://www.notalwaysright.com/page/" for x in range(1, 71): newurl = url + x response = urllib.request.urlopen(newurl) with open("Page/" + x, "a") as p: p.writelines(reponse.read())
Mechanize是一个用python爬行web的好软件包。您的问题的一个简单示例是:
这只需获取您的url并从服务器打印响应。
这可以在python中使用urllib模块简单地完成。以下是Python3中的一个简单示例:
有关urllib模块的详细信息->;http://docs.python.org/3.3/library/urllib.html
你只想要网站的html代码吗?如果是这样,只需创建一个带有宿主站点的url变量,并在运行时添加页码。我将以http://www.notalwaysright.com为例
相关问题 更多 >
编程相关推荐