将每个xpath项的web刮取提取限制为一次，返回的副本太多问题的回答

将每个xpath项的web刮取提取限制为一次，返回的副本太多

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正在使用以下基于<a href="http://scrapy.org/" rel="nofollow">scrapy</a>的web爬网脚本来提取<a href="http://tool.httpcn.com/Html/Zi/28/PWMETBAZTBTBBDTB.shtml" rel="nofollow">this page</a>的一些元素，但是，它一遍遍地返回相同的信息，这使我必须进行的后期处理变得复杂，有没有一种好方法可以将这些提取限制为每个xpath项一次？你知道吗 <pre><code>from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector #from hz_sample.items import HzSampleItem class DmozSpider(BaseSpider): name = "hzIII" allowed_domains = ["tool.httpcn.com"] start_urls = ["http://tool.httpcn.com/Html/Zi/28/PWMETBAZTBTBBDTB.shtml"] def parse(self, response): hxs = HtmlXPathSelector(response) titles = hxs.select("//p") for titles in titles: tester = titles.xpath('//*[@id="div_a1"]/div[3][1]').extract() #jester = titles.xpath('//*[@id="div_a1"]/div[2]').extract() print tester </code></pre> <a href="https://www.dropbox.com/s/ky2brjue84tx040/REPETITIVE.txt?dl=0" rel="nofollow">This</a>是我当前输出的样子（这是到dropbox文件的链接）。你知道吗 输出应如下所示： <pre><code>[u'<div class="content16">\r\n\u25ce \u57fa\u672c\u89e3\u91ca \r\n\u6bd6 b\xec \u8c28\u614e\uff1a\u60e9\u524d\u6bd6\u540e\uff08\u63a5\u53d7\u8fc7\u53bb\u5931\u8d25\u7684\u6559\u8bad\uff0c\u4ee5\u540e\u5c0f\u5fc3\u4e0d\u91cd\u72af\uff09\u3002 \u64cd\u52b3\uff1a\u201c\u65e0\u6bd6\u4e8e\u6064\u201d\u3002 \u53e4\u540c\u201c\u6ccc\u201d\uff0c\u6cc9\u6c34\u5192\u51fa\u6d41\u6dcc\u7684\u6837\u5b50\u3002 \u7b14\u753b\u6570\uff1a9\uff1b \u90e8\u9996\uff1a\u6bd4\uff1b \u7b14\u987a\u7f16\u53f7\uff1a153545434 \r\n</div>'] [u'<div class="text16">\u25ce \u5b57\u5f62\u7ed3\u6784 [ \u9996\u5c3e\u5206\u89e3\u67e5\u5b57 ]\uff1a\u6bd4\u5fc5(bibi)\n\u3000[ \u6c49\u5b57\u90e8\u4ef6\u6784\u9020 ]\uff1a\u6bd4\u5fc5\n [ \u7b14\u987a\u7f16\u53f7 ]\uff1a153545434 \n[ \u7b14\u987a\u8bfb\u5199 ]\uff1a\u6a2a\u6298\u6487\u6298\u637a\u6298\u637a\u6487\u637a \n <hr class="hr"></div>'] </code></pre> 但目前的安排是，想要产出的次数太多了，比如： <pre><code>[u'<div class="content16">\r\n\u25ce \u57fa\u672c\u89e3\u91ca \r\n\u6bd6 b\xec \u8c28\u614e\uff1a\u60e9\u524d\u6bd6\u540e\uff08\u63a5\u53d7\u8fc7\u53bb\u5931\u8d25\u7684\u6559\u8bad\uff0c\u4ee5\u540e\u5c0f\u5fc3\u4e0d\u91cd\u72af\uff09\u3002 \u64cd\u52b3\uff1a\u201c\u65e0\u6bd6\u4e8e\u6064\u201d\u3002 \u53e4\u540c\u201c\u6ccc\u201d\uff0c\u6cc9\u6c34\u5192\u51fa\u6d41\u6dcc\u7684\u6837\u5b50\u3002 \u7b14\u753b\u6570\uff1a9\uff1b \u90e8\u9996\uff1a\u6bd4\uff1b \u7b14\u987a\u7f16\u53f7\uff1a153545434 \r\n</div>'] [u'<div class="text16">\u25ce \u5b57\u5f62\u7ed3\u6784 [ \u9996\u5c3e\u5206\u89e3\u67e5\u5b57 ]\uff1a\u6bd4\u5fc5(bibi)\n\u3000[ \u6c49\u5b57\u90e8\u4ef6\u6784\u9020 ]\uff1a\u6bd4\u5fc5\n [ \u7b14\u987a\u7f16\u53f7 ]\uff1a153545434 \n[ \u7b14\u987a\u8bfb\u5199 ]\uff1a\u6a2a\u6298\u6487\u6298\u637a\u6298\u637a\u6487\u637a \n <hr class="hr"></div>'] [u'<div class="content16">\r\n\u25ce \u57fa\u672c\u89e3\u91ca \r\n\u6bd6 b\xec \u8c28\u614e\uff1a\u60e9\u524d\u6bd6\u540e\uff08\u63a5\u53d7\u8fc7\u53bb\u5931\u8d25\u7684\u6559\u8bad\uff0c\u4ee5\u540e\u5c0f\u5fc3\u4e0d\u91cd\u72af\uff09\u3002 \u64cd\u52b3\uff1a\u201c\u65e0\u6bd6\u4e8e\u6064\u201d\u3002 \u53e4\u540c\u201c\u6ccc\u201d\uff0c\u6cc9\u6c34\u5192\u51fa\u6d41\u6dcc\u7684\u6837\u5b50\u3002 \u7b14\u753b\u6570\uff1a9\uff1b \u90e8\u9996\uff1a\u6bd4\uff1b \u7b14\u987a\u7f16\u53f7\uff1a153545434 \r\n</div>'] [u'<div class="text16">\u25ce \u5b57\u5f62\u7ed3\u6784 [ \u9996\u5c3e\u5206\u89e3\u67e5\u5b57 ]\uff1a\u6bd4\u5fc5(bibi)\n\u3000[ \u6c49\u5b57\u90e8\u4ef6\u6784\u9020 ]\uff1a\u6bd4\u5fc5\n [ \u7b14\u987a\u7f16\u53f7 ]\uff1a153545434 \n[ \u7b14\u987a\u8bfb\u5199 ]\uff1a\u6a2a\u6298\u6487\u6298\u637a\u6298\u637a\u6487\u637a \n <hr class="hr"></div>'] [u'<div class="content16">\r\n\u25ce \u57fa\u672c\u89e3\u91ca \r\n\u6bd6 b\xec \u8c28\u614e\uff1a\u60e9\u524d\u6bd6\u540e\uff08\u63a5\u53d7\u8fc7\u53bb\u5931\u8d25\u7684\u6559\u8bad\uff0c\u4ee5\u540e\u5c0f\u5fc3\u4e0d\u91cd\u72af\uff09\u3002 \u64cd\u52b3\uff1a\u201c\u65e0\u6bd6\u4e8e\u6064\u201d\u3002 \u53e4\u540c\u201c\u6ccc\u201d\uff0c\u6cc9\u6c34\u5192\u51fa\u6d41\u6dcc\u7684\u6837\u5b50\u3002 \u7b14\u753b\u6570\uff1a9\uff1b \u90e8\u9996\uff1a\u6bd4\uff1b \u7b14\u987a\u7f16\u53f7\uff1a153545434 \r\n</div>'] [u'<div class="text16">\u25ce \u5b57\u5f62\u7ed3\u6784 [ \u9996\u5c3e\u5206\u89e3\u67e5\u5b57 ]\uff1a\u6bd4\u5fc5(bibi)\n\u3000[ \u6c49\u5b57\u90e8\u4ef6\u6784\u9020 ]\uff1a\u6bd4\u5fc5\n [ \u7b14\u987a\u7f16\u53f7 ]\uff1a153545434 \n[ \u7b14\u987a\u8bfb\u5199 ]\uff1a\u6a2a\u6298\u6487\u6298\u637a\u6298\u637a\u6487\u637a \n <hr class="hr"></div>'] [u'<div class="content16">\r\n\u25ce \u57fa\u672c\u89e3\u91ca \r\n\u6bd6 b\xec \u8c28\u614e\uff1a\u60e9\u524d\u6bd6\u540e\uff08\u63a5\u53d7\u8fc7\u53bb\u5931\u8d25\u7684\u6559\u8bad\uff0c\u4ee5\u540e\u5c0f\u5fc3\u4e0d\u91cd\u72af\uff09\u3002 \u64cd\u52b3\uff1a\u201c\u65e0\u6bd6\u4e8e\u6064\u201d\u3002 \u53e4\u540c\u201c\u6ccc\u201d\uff0c\u6cc9\u6c34\u5192\u51fa\u6d41\u6dcc\u7684\u6837\u5b50\u3002 \u7b14\u753b\u6570\uff1a9\uff1b \u90e8\u9996\uff1a\u6bd4\uff1b \u7b14\u987a\u7f16\u53f7\uff1a153545434 \r\n</div>'] [u'<div class="text16">\u25ce \u5b57\u5f62\u7ed3\u6784 [ \u9996\u5c3e\u5206\u89e3\u67e5\u5b57 ]\uff1a\u6bd4\u5fc5(bibi)\n\u3000[ \u6c49\u5b57\u90e8\u4ef6\u6784\u9020 ]\uff1a\u6bd4\u5fc5\n [ \u7b14\u987a\u7f16\u53f7 ]\uff1a153545434 \n[ \u7b14\u987a\u8bfb\u5199 ]\uff1a\u6a2a\u6298\u6487\u6298\u637a\u6298\u637a\u6487\u637a \n <hr class="hr"></div>'] [u'<div class="content16">\r\n\u25ce \u57fa\u672c\u89e3\u91ca \r\n\u6bd6 b\xec \u8c28\u614e\uff1a\u60e9\u524d\u6bd6\u540e\uff08\u63a5\u53d7\u8fc7\u53bb\u5931\u8d25\u7684\u6559\u8bad\uff0c\u4ee5\u540e\u5c0f\u5fc3\u4e0d\u91cd\u72af\uff09\u3002 \u64cd\u52b3\uff1a\u201c\u65e0\u6bd6\u4e8e\u6064\u201d\u3002 \u53e4\u540c\u201c\u6ccc\u201d\uff0c\u6cc9\u6c34\u5192\u51fa\u6d41\u6dcc\u7684\u6837\u5b50\u3002 \u7b14\u753b\u6570\uff1a9\uff1b \u90e8\u9996\uff1a\u6bd4\uff1b \u7b14\u987a\u7f16\u53f7\uff1a153545434 \r\n</div>'] [u'<div class="text16">\u25ce \u5b57\u5f62\u7ed3\u6784 [ \u9996\u5c3e\u5206\u89e3\u67e5\u5b57 ]\uff1a\u6bd4\u5fc5(bibi)\n\u3000[ \u6c49\u5b57\u90e8\u4ef6\u6784\u9020 ]\uff1a\u6bd4\u5fc5\n [ \u7b14\u987a\u7f16\u53f7 ]\uff1a153545434 \n[ \u7b14\u987a\u8bfb\u5199 ]\uff1a\u6a2a\u6298\u6487\u6298\u637a\u6298\u637a\u6487\u637a \n <hr class="hr"></div>'] </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

将每个xpath项的web刮取提取限制为一次，返回的副本太多

1 个回答

相关Python问题