擅长:python、mysql、java
<p>查看有问题的网页,看起来所有的newstory都在<code>h3</code>标记中,类为<code>item-heading</code>。您可以使用BeautifulGroup选择所有的报道标题,然后向上一步访问它们包装在其中的<code>a href</code>:</p>
<pre><code>In [54]: [i.parent.attrs["href"] for i in soup.select('a > h3.item-heading')]
Out[55]:
[{'href': '/news/us-news/civil-rights-groups-fight-trump-s-refugee-ban-uncertainty-continues-n713811'},
{'href': '/news/us-news/protests-erupt-nationwide-second-day-over-trump-s-travel-ban-n713771'},
{'href': '/politics/politics-news/some-republicans-criticize-trump-s-immigration-order-n713826'},
... # trimmed for readability
]
</code></pre>
<p>我使用了列表理解,但您可以将其分解为以下组合步骤:</p>
^{pr2}$
<p>一旦有了链接列表,就可以遍历它来检查第一个字符是否是<code>/</code>,以便只匹配本地链接而不匹配外部链接。在</p>