快速解析网站地图

<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.A.com/a</loc> <lastmod>2013-08-01</lastmod> <changefreq>weekly</changefreq> <priority>0.6</priority> </url> <url> <loc>http://www.A.com/b</loc> <lastmod>2013-08-01</lastmod> <changefreq>weekly</changefreq> <priority>0.6</priority> </url> ... </urlset>

3条回答

网友

1楼 · 编辑于 2024-06-25 23:39:54

这可能对您有用（GNU-sed）：

sed '/^<url>/!d;:a;N;/<\/url>/!ba;s/<[^>]*>\s*<[^>]*>/ /g;s/^ \| $//g' file

收集模式空间中的url行，用空格替换标记，并删除前导空格和尾随空格。删除所有其他行。在

如果您知道url标记之间只有4行：

^{pr2}$

网友

2楼 · 编辑于 2024-06-25 23:39:54

sed是一个很好的工具，可以在单行上进行简单的替换，对于其他任何情况，只需使用awk：

$ awk -F'[<>]' '
    /^<\/url>/ { inUrl=0; print line }
    inUrl      { line = line (line?" ":"") $3 }
    /^<url>/   { inUrl=1; line="" }
' file
http://www.A.com/a 2013-08-01 weekly 0.6
http://www.A.com/b 2013-08-01 weekly 0.6

网友

3楼 · 编辑于 2024-06-25 23:39:54

我绝对不会建议将正则表达式作为解析任意XML或HTML的通用方法，但由于您说过这是一种格式良好的格式，在这种情况下，usual warning可能会被忽略：

sed -n '/^<url>$/{n;N;N;N;s/\n/ /g;s/ *<[a-z]*>//g;s/<\/[a-z]*>/ /g;p}'

下面是一个注释版本，解释了正在发生的事情：

^{pr2}$

-n选项禁止图案空间的自动打印。在

相关问题更多 >

编程相关推荐

热门问题

热门文章