我试图创建一个regex,但没有成功,我要做的是获取任何一个类为(author | byline | writer)的html元素的内容
这是我到目前为止的情况
<([A-Z][A-Z0-9]*)class=\"(byLineTag|byline|author|by)\"[^>]*>(.*?)</\1>
我需要匹配的示例
^{pr2}$或者
<div class="noindex"><span class="by">By </span><span class="byline"><a href="javascript:NewWindow(575,480,'/apps/pbcs.dll/personalia?ID=sshemkus',0)" title="Email Reporter">Sarah Shemkus</a></span></div>
任何帮助都将不胜感激。 -斯特凡
试试这个:
我添加的内容:
-*?,以防class属性没有出现在起始标记之后。
-*?,将*运算符设置为非贪心,以便查找结束符>;
由于前面提到的原因,强烈建议使用regexp解析html。使用现有的HTML解析器。作为一个如何简单的例子,我提供了一个使用lxml及其CSS选择器的示例。在
Regex并不特别适合解析HTML。};后者如下所示:
值得庆幸的是,有专门为解析HTML而创建的工具,例如
BeautifulSoup
和{相关问题 更多 >
编程相关推荐