在python中打印列表中的所有项时出现问题

import urllib import re pagelist = ["page=1","page=2","page=3","page=4","page=5","page=6","page=7","page=8","page=9","page=10"] ziplocations = ["=30008","=30009"] i=0 while i<len(pagelist): url = "http://www.boostmobile.com/stores/?" +pagelist[i]+"&zipcode=30008" htmlfile = urllib.urlopen(url) htmltext = htmlfile.read() regex = '<h2 style="float:left;">(.+?)</h2>' pattern = re.compile(regex) storeName = re.findall(pattern,htmltext) print "Store Name=", storeName[i] i+=1

2条回答

网友

1楼 · 编辑于 2024-09-28 22:00:02

storeName是一个数组，需要循环遍历它。目前，您在每一页上都使用页码对其进行索引，这可能不是您的意图。你知道吗

下面是代码的正确版本，添加了循环。你知道吗

import urllib
import re

pagelist = ["page=1","page=2","page=3","page=4","page=5","page=6","page=7","page=8","page=9","page=10"]
ziplocations = ["=30008","=30009"]

i=0
while i<len(pagelist):
    url = "http://www.boostmobile.com/stores/?" +pagelist[i]+"&zipcode=30008"
    htmlfile = urllib.urlopen(url)
    htmltext = htmlfile.read()
    regex = '<h2 style="float:left;">(.+?)</h2>' 
    pattern = re.compile(regex)
    storeName = re.findall(pattern,htmltext)
    for sn in storeName:
        print "Store Name=", sn
    i+=1

网友

2楼 · 编辑于 2024-09-28 22:00:02

Do not parse HTML with regex.使用一个专门的工具-anHTML Parser。你知道吗

下面是使用^{}的解决方案：

import urllib2
from bs4 import BeautifulSoup

base_url = "http://www.boostmobile.com/stores/?page={page}&zipcode={zipcode}"
num_pages = 10
zipcode = 30008

for page in xrange(1, num_pages + 1):
    url = base_url.format(page=page, zipcode=zipcode)
    soup = BeautifulSoup(urllib2.urlopen(url))

    print "Page Number: %s" % page
    results = soup.find('table', class_="results")
    for h2 in results.find_all('h2'):
        print h2.text

它打印：

Page Number: 1
Boost Mobile Store by Wireless Depot
Boost Mobile Store by KOB Wireless
Marietta Check Cashing Services
...
Page Number: 2
Target
Wal-Mart
...

如您所见，首先我们找到一个带有results类的table标记—这就是商店名称的实际位置。然后，在table中我们找到了所有的h2标记。这比依赖标签的style属性更健壮。你知道吗

您还可以使用^{}。它将提高性能，因为它只解析您指定的文档部分：

required_part = SoupStrainer('table', class_="results")
for page in xrange(1, num_pages + 1):
    url = base_url.format(page=page, zipcode=zipcode)
    soup = BeautifulSoup(urllib2.urlopen(url), parse_only=required_part)

    print "Page Number: %s" % page
    for h2 in soup.find_all('h2'):
        print h2.text

这里我们说：“只解析带有类results的table标记。把里面的h2标签都给我们。”

另外，如果要提高性能，可以let ^{} use ^{} parser under the hood：

soup = BeautifulSoup(urllib2.urlopen(url), "lxml", parse_only=required_part)

希望有帮助。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章