正在分析用于抓取任务的URL

2024-09-27 17:30:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我想解析一些网址,访问该网站,并进一步取消一些数据

基本上我现在的代码是:

i = 9
while(i < 118):
  dict = {'start': i}
  url1 = urllib.urlencode(dict)
  url2 = urlparse.urljoin('http://intelligencesquaredus.org/debates/past-debates ', url1)
  print url2
  i = i + 9

结果呢

http://intelligencesquaredus.org/debates/past-debates/start=9
http://intelligencesquaredus.org/debates/past-debates/start=18
http://intelligencesquaredus.org/debates/past-debates/start=27

但我希望链接

http://intelligencesquaredus.org/debates/past-debates?start=9

任何帮助都将不胜感激。 提前谢谢


Tags: 数据代码orghttp网站urllibstartdict
1条回答
网友
1楼 · 发布于 2024-09-27 17:30:34

使用

url2=('?'.join(('http://intelligencesquaredus.org/debates/past-debates '+url1).split(' ')))

在上面的代码段中,您将把url作为一个字符串,并向其中添加所需的字符串(url1

然后按空格分割得到一个包含两个元素的列表,稍后用?将它们连接起来

备选方案(德洛兹建议):

base_url = "http://intelligencesquaredus.org/debates/past-debates"
for a in([''.join((base_url, '?', 'start=', str(i))) for i in range(9, 118, 9)]):
    print(a)

相关问题 更多 >

    热门问题