你将如何刮取一个带有LinkExtractor的站点地图URL?在
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Linkextractor将以a标记的href属性为目标。在
^{pr2}$如何使用LxmlLinkExtractor来定位<url>
/<loc>
元素?在
在这种情况下,您可以使用bs4。在
如果您有多个标记urlset,则应该执行一个循环,因为列表长度将大于1:
^{pr2}$尝试XMLFeedSpider
或者使用Regex来提取所有url
^{pr2}$相关问题 更多 >
编程相关推荐