<p>这里有一些例子,你可以从中推断出最后一个。记住总是使用class或id属性来标识html元素。<code>/div[3]/div[2]/div/div[1]/..</code>不是一个好的做法。你知道吗</p>
<pre><code>chinesetitle = response.xpath('//div[@class="ziliaofr"]/div/h2/text()').extract_first()
englishtitle = response.xpath('//div[@class="ziliaofr"]/div/p/text()').extract_first()
chinesereleasedate = response.xpath('//div[@class="ziliaofr"]/div/p[contains(text(),"上映时间")]/text()').extract_first())
productionregions = response.xpath('//div[@class="ziliaofr"]/div/p')[6].xpath('text()').extract_first()
</code></pre>
<p>为了找到<code>chinesereleasedate</code>,我使用了文本包含<code>'上映时间'</code>的<code>p</code>元素。你必须解析它才能得到准确的值。你知道吗</p>
<p>为了找到<code>productionregions</code>,我从列表中选择了第7个选择器<code>response.xpath('//div[@class="ziliaofr"]/div/p')[6]</code>选择了文本。一个更好的方法是检查文本是否包含如上所述的'。你知道吗</p>
<p><strong>编辑:</strong>回答评论中的问题</p>
<pre><code>response.xpath('//div[@class="ziliaofr"]/div/p[contains(text(),"上映时间")]/text()').extract_first()
</code></pre>
<p>返回一个类似<code>'\r\n 上映时间:2017-7-27(中国)\r\n '</code>的字符串,它不是您要查找的字符串。你可以像这样清理它:</p>
<p><code>chinesereleasedate = chinesereleasedate.split(':')[1].split('(')[0]</code></p>
<p>这给了我们正确的日期。你知道吗</p>