我正在写一个脚本,应该依次打开10个文本文件(它们是来自不同网页的源代码)。然后我希望脚本遍历并将<br />
的任何实例替换为\n
。然后我希望它删除整个标题,基本上。在任何情况下,文档总是以DOCTYPE
开头,我想要的信息之前的最后一行结束
"decoration:underline">no year</span><br />
据我所知,regex /.../s
意味着“忽略换行符”,我已经转义了出现在</span>
标记中的HTML /
。
到目前为止,我有以下内容
不过,我得到的只是同一根弦。在
期望输出如下:
""" <b><a target="_blank" href="http://movies.netflixable.com/224599">Beautiful Game, The</a> (no year)</b> <i style="font-size:small"> 3.5 stars, 1hr 24m <a target="_blank" href="http://www.imdb.com/search/title?title=The Beautiful Game">imdb</a></i> <img class="cc_img" src="http://bit.ly/VqRKtD" border="0" style="padding:0px !important;" title="Closed Captions: --- - Danish - Swedish - Finnish - Norwegian Bokm��l - English " alt="Closed Captions: --- - Danish - Swedish - Finnish - Norwegian Bokm��l - English " />
<b><a target="_blank" href="http://movies.netflixable.com/224278">Brave Miss World</a> (no year)</b> <i style="font-size:small"> 3.7 stars, 1hr 28m <a target="_blank" href="http://www.imdb.com/search/title?title=Brave Miss World">imdb</a></i> <img class="cc_img" src="http://bit.ly/VqRKtD" border="0" style="padding:0px !important;" title="Closed Captions: --- - Danish - Swedish - Finnish - Norwegian Bokm��l " alt="Closed Captions: --- - Danish - Swedish - Finnish - Norwegian Bokm��l " /> """
主要问题是您的regex模式对于Python是错误的。在
在}被认为是模式的一部分,而不是其行为的修饰符。这看起来像PCRE regex语法la PHP,Python不支持它。相反,要使
r'/^<!DOCTYPE.+no year<\/span>/s'
中,前导/
和尾随{.
匹配任何字符(包括换行符),需要设置re.DOTALL
标志,如下所示。在另一个问题是来自
create_linebreaks()
和clean_up()
的返回值没有分配回data
,因此更改丢失。在另外,您不希望为})。在
create_linebreaks()
中的换行符使用原始字符串,普通字符串是可以的(否则您将用\\n
替换{相关问题 更多 >
编程相关推荐