很奇怪,我坐了将近一个星期。
也许这很明显,我只是觉得事情不对劲了…
我们也欢迎任何其他解决方案的线索。
我对网站没有影响。
我不熟悉HTML。在
我尝试从一个网站使用scrapy获得具体的链接。(有多少变化)
在本例中,RELATIVELINK1和RELATIVELINK4;都被标记为“详细信息”。
有多少张表取决于你能看到什么。在
在我开始解决问题之前:
我正在使用scrpy shell测试响应。
我从HTML代码的所有其他部分获取值。
我试过xpath,响应.cssund scrapy的LinkExtractor。
我试着忽略路径中的/p部分。在
现在,如果我尝试使用xpath获取响应:
response.xpath('/html/body').extract()
-我得到了所有东西,包括<p>
但当我到达response.xpath('/html/body/.../p').extract()
-我只得到:['<p>\n<br>\n</p>']
然后response.xpath('/html/body/.../p/table').extract()
-我得到[ ]
response.xpath('/html/body/.../p/br').extract()
以下是我遇到问题的HTML段:
<p>
<BR>
<TABLE BORDER>
<TR>
<TD><b>NAME1</b></TD>
<TD><b>NAME2</b></TD>
<TD><b>NAME3</b></TD>
<TD><b>NAME4</b></TD>
<TD COLSPAN=3><b>Links</b></TD>
</TR>
<TR>
<TD>NUMBER1</font></TD>
<TD>LINK1 </font></TD>
<TD> </font></TD>
<TD>NAME5 </font></TD>
<TD><a href=RELATIVELINK1>Details</a></TD>
<TD><a href=RELATIVELINK2>LABEL1</TD>
<TD><a href=RELATIVELINK3>LABEL2</TD>
</TR>
<TR>
<TD>NUMBER2</font></TD>
<TD>LINK2 </font></TD>
<TD> </font></TD>
<TD>NAME5;</font></TD>
<TD><a href=RELATIVELINK4>Details</a></TD>
<TD><a href=RELATIVELINK5>LABEL1</TD>
<TD><a href=RELATIVELINK6>LABEL2</TD>
</TR>
</TABLE>
<BR>
没有</P>
。在
相关问题 更多 >
编程相关推荐