我有一个网站,每个人的详细信息都存储在单独的.HTML文件中。因此,总共有100个人的详细信息存储在100个不同的.html文件中。但它们都有相同的HTML结构。在
这是网站链接 http://www.coimbatore.com/doctors/home.htm。在
所以,如果你看到这个网站有很多类别,~all-doctors.html~
文件在同一个目录中。在
{a2}
有5个医生的联系。如果我点击任何医生的名字
http://www.coimbatore.com/doctors/该doctorName.htm。所以所有的文件都在同一个目录/doctors/如果我没有错的话。那么我该如何收集每个医生的详细资料呢?在
我计划在LINUX中使用join
函数将http://www.coimbatore.com/doctors/URL中的所有文件保存在本地并合并为一个whole.html
文件。还有更好的办法吗?在
更新
letters = ['doctor1','doctor2'...]
for i in range(30):
try:
page = urllib2.urlopen("http://www.coimbatore.com/doctors/{}.htm".format(letters[i]))
except urllib2.HTTPError:
continue
else:
{a1}方法是使用^:
创建项目:
定义要加载的数据(
^{pr2}$items.py
):创建蜘蛛。这个
basic
似乎不适合这个任务:将其更改为返回一个
Request
对象,直到每个页面都包含医生的信息:运行方式如下:
这将创建一个
csv
文件,如:这段代码应该能让你开始。在
它的输出是
^{pr2}$一些注意事项,你可能希望以不同的方式处理。我用空格替换了所有换行符(
\n
),因为代码有奇怪的换行符,如下所示:请注意,它强制在
Name
和of
之间断开。在如果您正试图从中生成一个CSV,那么可以很容易地修改脚本,使其只提取每行上的第二个单元格。在
相关问题 更多 >
编程相关推荐