pythonhtml解析脚本，接受url数组并输出关于每个url的特定数据

2条回答

网友

1楼 · 编辑于 2024-07-01 08:02:45

import urllib2
from bs4 import BeautifulSoup

url = 'http://www.youtube.com/watch?v=QOdW1OuZ1U0'
f = urllib2.urlopen(url)
data = f.read()

soup = BeautifulSoup(data)
span = soup.find('span', attrs={'class':'watch-view-count'})
print '{}:{}'.format(url, span.text)

如果不想使用BeautifulSoup，可以使用re：

^{pr2}$

至于输出，我想你可以把它们存储在csv文件中。在

网友

2楼 · 编辑于 2024-07-01 08:02:45

对于这类任务，我更喜欢HTMLParser，而不是{}。然而，HTMLParser可能有点棘手。我用不可变的对象来存储数据。。。我肯定这样做是不对的。但它在过去为我做过几个项目。在

import urllib2
from HTMLParser import HTMLParser
import csv 

position = []
results = [""]

class hp(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == 'span' and ('class', 'watch-view-count ') in attrs:   
            position.append('bingo')

    def handle_endtag(self, tag):
        if tag == 'span' and 'bingo' in position:
            position.remove('bingo')

    def handle_data(self, data):
        if 'bingo' in position:
            results[0] += " " + data.strip() + " "


my_pages = ["http://www.youtube.com/watch?v=QOdW1OuZ1U0"]
data = []
for url in my_pages:
    response = urllib2.urlopen(url)
    page = str(response.read())
    parser = hp()
    parser.feed(page)
    data.append(results[0])

    # reinitialize immutiable objects
    position = []
    results = [""]

index = 0
with open('/path/to/test.csv', 'wb') as f:
    writer = csv.writer(f)
    header = ['url', 'output']
    writer.writerow(header)
    for d in data:
        row = [my_pages[index], data[index]]
        writer.writerow(row)
        index += 1

然后打开/路径/到/测试.csv在Excel中

相关问题更多 >

编程相关推荐

热门问题

热门文章

pythonhtml解析脚本，接受url数组并输出关于每个url的特定数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >