我的页面如下
<div style="width:100%;" id="innerTSpec">
<table width="100%" cellpadding="0" cellspacing="0" class="PrintIE7in80PercentWidth PrintIE6in80PercentWidth">
<tr><td ></td><td class="techspecheading"> Header1</td></tr>
<tr><td ></td><td class="techspecdata"> </td><td width="10px"></td><td class=""> </td></tr>
<tr><td ></td><td class="techspecheading"> </td></tr>
<tr><td ></td><td class="techspecdata"> My Attribute1: </td><td width="10px"></td><td class="techspecdata"> Value1 </td></tr>
<tr><td ></td><td class="techspecheading"> </td></tr>
<tr><td ></td><td class="techspecdata"> My Attribute2: </td><td width="10px"></td><td class="techspecdata"> Value2 </td></tr>
<tr><td ></td><td class="techspecheading"> </td></tr>
---> <tr><td ></td><td class="techspecheading"> <hr></td></tr>
<tr><td ></td><td class="techspecdata"> </td><td width="10px"></td><td class=""> </td></tr>
<tr><td ></td><td class="techspecheading"> Header2</td></tr>
<tr><td ></td><td class="techspecdata"> </td><td width="10px"></td><td class=""> </td></tr>
<tr><td ></td><td class="techspecheading"> </td></tr>
<tr><td ></td><td class="techspecdata"> My Attribute3: </td><td width="10px"></td><td class="techspecdata"> More Value1 </td></tr>
<tr><td ></td><td class="techspecheading"> </td></tr>
<tr><td ></td><td class="techspecdata"> My Attribute4: </td><td width="10px"></td><td class="techspecdata"> More Value2 </td></tr>
<tr><td ></td><td class="techspecheading"> </td></tr>
<tr><td ></td><td class="techspecdata"> My Attribute5: </td><td width="10px"></td><td class="techspecdata"> More Value3 </td></tr>
---> <tr><td ></td><td class="techspecheading"> <hr></td></tr>
</table>
</div>
标题和属性不是固定的位置,它会随着页面的变化而变化。 我试着做如下:
Header1 | Header2 |...
----------------------------------------------
My Attribute1:Value1|My Attribute3:More Value1|...
My Attribute2:Value2|My Attribute4:More Value2|...
|My Attribute5:More Value3|...
注:我使用的动态项目将添加如下
My Item is as below
--------------------------------------
class Website(Item):
def __setitem__(self, key, value):
if key not in self.fields:
self.fields[key] = Field()
self._values[key] = value
--------------------------------------
and in spider adding as below
--------------------------------------
item[Heading]=Body.xpath('..........').extract()
我没有安装scrapy,但是我认为您可以很容易地修改它以使用scrapy的
Items
。你知道吗item
:相关问题 更多 >
编程相关推荐