Python RSS阅读器文本过滤

<description>A deal to sell the Los Angeles Clippers for an NBA record price may move forward, a California probate judge ruled Monday.<div class="feedflare"> <a href="http://rss.cnn.com/~ff/rss/cnn_topstories?a=FMi4oVkdS58:sssPw82MBtA:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/rss/cnn_topstories?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://rss.cnn.com/~ff/rss/cnn_topstories?a=FMi4oVkdS58:sssPw82MBtA:7Q72WNTAKBA"><img src="http://feeds.feedburner.com/~ff/rss/cnn_topstories?d=7Q72WNTAKBA" border="0"></img></a> <a href="http://rss.cnn.com/~ff/rss/cnn_topstories?a=FMi4oVkdS58:sssPw82MBtA:V_sGLiPBpWU"><img src="http://feeds.feedburner.com/~ff/rss/cnn_topstories?i=FMi4oVkdS58:sssPw82MBtA:V_sGLiPBpWU" border="0"></img></a> <a href="http://rss.cnn.com/~ff/rss/cnn_topstories?a=FMi4oVkdS58:sssPw82MBtA:qj6IDK7rITs"><img src="http://feeds.feedburner.com/~ff/rss/cnn_topstories?d=qj6IDK7rITs" border="0"></img></a> <a href="http://rss.cnn.com/~ff/rss/cnn_topstories?a=FMi4oVkdS58:sssPw82MBtA:gIN9vFwOqvQ"><img src="http://feeds.feedburner.com/~ff/rss/cnn_topstories?i=FMi4oVkdS58:sssPw82MBtA:gIN9vFwOqvQ" border="0"></img></a> </div><img src="http://feeds.feedburner.com/~r/rss/cnn_topstories/~4/FMi4oVkdS58" height="1" width="1"/></description>

1条回答

网友

1楼 · 发布于 2024-09-29 00:20:09

“有没有快捷的方法，”你问？也许吧。在

首先，通过复制你给我们的全部文本并通过这个在线HTML解码器运行，看看你真正得到了什么：

http://www.opinionatedgeek.com/DotNet/Tools/HTMLEncode/Decode.aspx

这会让你知道你在处理什么。您需要对文本进行解码，使其看起来像正确的HTML。然后您将看到，嵌套在description标记中，您在感兴趣的文本后面有一个div标记和一个img标记。如果您认为这是您从feed中得到的结果，那么安全的做法是在<div>之前捕获所有内容并将其余内容丢弃。在

看看这个关于解码HTML的答案：

https://stackoverflow.com/a/2087433/155167

一旦解码了HTML，就可以使用find对象的find方法。在

# Assume text is decoded HTML, so the <div> looks like a normal tag.
start = len('<description>')
end = text.find('<div>')
text = text[start: end]

相关问题更多 >

编程相关推荐

热门问题

热门文章