from scrapy.spiders import Spider
from tutorial.items import Table
from scrapy.selector import Selector
class GoalSpider(Spider):
name = "stats"
allowed_domains = ["numberfire.com"]
start_urls = ('http://www.numberfire.com/nba/fantasy/full-fantasy-basketball-projections', )
def parse(self, response):
hxs = Selector(response)
items = hxs.xpath('//td/text()')
with open("stats.txt", 'wb') as f:
for item in items:
f.write(item.extract() + ' || ')
for item in items:
my_item = Table()
my_item['tal'] = item.select('.//text()').extract()
my_item['sep'] = item.select('.//text()').extract()
yield my_item
您好,好的,那么上面的代码假设是去到网站,拉表数据,一行一行,并将其作为纯文本写入一个文件。不幸的是,我不知道为什么,但是,当我使用爬虫程序时,值只是:
^{pr2}$我相信我正确地分离了它,但我不明白爬虫为什么要这样拉表数据,这些是正确的行,而不是实际的数据本身。似乎被拉取的数据是表的代码,而不是实际的数据。在
目前没有回答
相关问题 更多 >
编程相关推荐