Scrapy:无法使用Xpath选择内容,响应.css在HTML文档中

2024-09-29 21:30:03 发布

您现在位置:Python中文网/ 问答频道 /正文

很奇怪,我坐了将近一个星期。
也许这很明显,我只是觉得事情不对劲了…
我们也欢迎任何其他解决方案的线索。
我对网站没有影响。
我不熟悉HTML。在

我尝试从一个网站使用scrapy获得具体的链接。(有多少变化)
在本例中,RELATIVELINK1和RELATIVELINK4;都被标记为“详细信息”。
有多少张表取决于你能看到什么。在

在我开始解决问题之前:
我正在使用scrpy shell测试响应。
我从HTML代码的所有其他部分获取值。
我试过xpath,响应.cssund scrapy的LinkExtractor。
我试着忽略路径中的/p部分。在

现在,如果我尝试使用xpath获取响应:

response.xpath('/html/body').extract()-我得到了所有东西,包括<p>
但当我到达
response.xpath('/html/body/.../p').extract()-我只得到:['<p>\n<br>\n</p>']
然后
response.xpath('/html/body/.../p/table').extract()-我得到[ ]

response.xpath('/html/body/.../p/br').extract()

以下是我遇到问题的HTML段:

<p>
    <BR>
      <TABLE  BORDER>
          <TR>
            <TD><b>NAME1</b></TD>
            <TD><b>NAME2</b></TD>
            <TD><b>NAME3</b></TD>
            <TD><b>NAME4</b></TD>
            <TD COLSPAN=3><b>Links</b></TD>
         </TR>
         <TR>
           <TD>NUMBER1</font></TD>
           <TD>LINK1    </font></TD>
           <TD>&nbsp</font></TD>
           <TD>NAME5&nbsp;</font></TD>
           <TD><a href=RELATIVELINK1>Details</a></TD>
           <TD><a href=RELATIVELINK2>LABEL1</TD>
           <TD><a href=RELATIVELINK3>LABEL2</TD>
         </TR>
         <TR>
           <TD>NUMBER2</font></TD>
           <TD>LINK2       </font></TD>
           <TD>&nbsp</font></TD>
           <TD>NAME5;</font></TD>
           <TD><a href=RELATIVELINK4>Details</a></TD>
           <TD><a href=RELATIVELINK5>LABEL1</TD>
           <TD><a href=RELATIVELINK6>LABEL2</TD>
         </TR>
       </TABLE>
     <BR>

没有</P>。在


Tags: 网站responsehtmlextractbodyxpathtrtd

热门问题