如何在XPath中包含格式化文本？问题的回答

如何在XPath中包含格式化文本？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正在为我的IT工作做一个项目，它要求我使用Scrapy/XPath编写一个scraper，从一个相当简单的HTML页面获取一组相当简单的数据。我已经把所有的东西都按我想要的方式运行，除了一些斜体文字（被抓取的网站是为了语言教育项目，在这个特定的文本字段中有很多斜体的例子）没有出现。在 下面是我在斜体问题出现之前成功使用的代码： <pre><code>rawTitles = [] for sel in response.xpath('//h2[@class="video"]'): rawTitle = sel.xpath('text()').extract() rawTitles.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>(rawTitle[0]) print rawTitles </code></pre> 我得到以下“打印rawTitles”的回报： ^{pr2}$ 我想要的是这样的东西： <pre><code>[u'\nMjadra', u'\nVariations in Making Mansaf', u'\nMaking Maqloobeh', u'\nCommon Rice and Meat Dishes', u'\nRumens and Mahashi'] </code></pre> 如果文本HTML标记不能包含在输出中，我至少希望包含纯文本。单词应该出现的空白似乎不是我能做的最好的。在 有人知道我想试试什么吗？如果我没有提供足够的信息，请告诉我。提前谢谢。在 编辑：下面是一个表条目的示例，我需要从中提取信息： <pre><code><td width="25%" valign="top" align="center"> <h2 class="video"><img src="content/pl_makingfood_mjadrah.jpg" alt="Thumbnail image from video" width="160" height="120" /> Mjadra</h2> Video <a href="content/pl_makingfood_mjadrah.rm" class="main">real</a>&nbsp;&nbsp; <a href="content/pl_makingfood_mjadrah.mp4" class="main" target="_blank">mp4</a> Palestinian Arabic &amp; English <a href="content/pl_makingfood_mjadrah.doc" target="_blank" class="main"> doc </a>&nbsp; &nbsp; <a href="content/pl_makingfood_mjadrah.pdf" target="_blank" class="main"> pdf </a> </td> </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

让我们看看scrapy shell中的不同提取模式，从示例HTML构建一个选择器： <pre><code>>>> import scrapy >>> t = '''<td width="25%" valign="top" align="center"> ... <h2 class="video"><img src="content/pl_makingfood_mjadrah.jpg" alt="Thumbnail image from video" width="160" height="120" /> ... Mjadra</h2> Video ... ... <a href="content/pl_makingfood_mjadrah.rm" class="main">real</a>&nbsp;&nbsp; ... <a href="content/pl_makingfood_mjadrah.mp4" class="main" target="_blank">mp4</a> ... ... Palestinian Arabic &amp; English ... <a href="content/pl_makingfood_mjadrah.doc" target="_blank" class="main"> doc </a>&nbsp; &nbsp; ... <a href="content/pl_makingfood_mjadrah.pdf" target="_blank" class="main"> pdf </a> ... </td>''' >>> selector = scrapy.Selector(text=t, type="html") </code></pre> 首先，让我们循环<code><h2 class="video"></code>元素（使用CSS选择器），并提取循环中每个标题的字符串表示： ^{pr2}$ 我们丢失了<code></code>信息。在 让我们尝试只获取文本节点（使用<code>text()</code>节点测试）： <pre><code>>>> for h2 in selector.css('h2.video'): ... print(h2.xpath('text()').extract()) ... ['\n'] </code></pre> 更糟糕的是，我们没有在<code></code>元素中获取文本节点。（实际上，<code>text()</code>只选择直接子文本节点，而不是子节点的子节点） 让我们试试<code>.//</code>，也就是<code>./descendant-or-self::node()/</code>快捷方式： <pre><code>>>> for h2 in selector.css('h2.video'): ... print(h2.xpath('.//text()').extract()) ... ['\n', 'Mjadra'] </code></pre> 不比使用XPath的<code>string()</code>好多少。在 现在，让我们使用<code>node()</code>节点测试，捕获元素和文本节点： <pre><code>>>> for h2 in selector.css('h2.video'): ... print(h2.xpath('node()').extract()) ... ['<img src="content/pl_makingfood_mjadrah.jpg" alt="Thumbnail image from video" width="160" height="120">', ' ', ' ', '\n', 'Mjadra'] </code></pre> 这更好，但是我们有这些<code><img></code>标记，您可能不想要。所以我们只选择文本节点和<code></code>s： <pre><code>>>> for h2 in selector.css('h2.video'): ... print(h2.xpath('./node()[self::text() or self::i]').extract()) ... ['\n', 'Mjadra'] >>> </code></pre> 您可能需要从每个标题中提取一个字符串。因此，使用Python的<code>join()</code>是一个选项： <pre><code>>>> for h2 in selector.css('h2.video'): ... print( "".join(h2.xpath('./node()[self::text() or self::i]').extract()) ) ... Mjadra >>> </code></pre>

如何在XPath中包含格式化文本？

1 个回答

相关Python问题