保存网页的Python

2024-09-27 07:18:21 发布

您现在位置:Python中文网/ 问答频道 /正文

这可能是一个很简单的任务,但我找不到任何帮助。我有一个网站,格式是www.xyz.com/somestuff/ID。我有一个需要信息的ID列表。我希望有一个简单的脚本去一个网站,并下载(完整的)每个ID的网页在一个简单的形式ID_默认的保存名称_是在一个特定的文件夹。

我可以运行一个简单的python脚本来完成这个任务吗?我可以用手做,只有75页,但我希望以后能用它来学习如何做这样的事情。


Tags: 脚本文件夹名称com信息id网页列表
3条回答

Mechanize是一个用python爬行web的好软件包。您的问题的一个简单示例是:

import mechanize

br = mechanize.Browser()
response = br.open("www.xyz.com/somestuff/ID")
print response

这只需获取您的url并从服务器打印响应。

这可以在python中使用urllib模块简单地完成。以下是Python3中的一个简单示例:

import urllib.request

url = 'www.xyz.com/somestuff/ID'
req = urllib.request.Request(url)
page = urllib.request.urlopen(req)
src = page.readall()
print(src)

有关urllib模块的详细信息->;http://docs.python.org/3.3/library/urllib.html

你只想要网站的html代码吗?如果是这样,只需创建一个带有宿主站点的url变量,并在运行时添加页码。我将以http://www.notalwaysright.com为例

import urllib.request

url = "http://www.notalwaysright.com/page/"

for x in range(1, 71):
    newurl = url + x
    response = urllib.request.urlopen(newurl)
    with open("Page/" + x, "a") as p:
        p.writelines(reponse.read())

相关问题 更多 >

    热门问题