Python中文
首页
教程
问答
标签
搜索
登录
注册
用于从wiki模板标记中提取字段的正则表达式
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我想使用Python提取MediaWiki标记中格式化的内容,并将其置于特定字符串之后。例如,<a href="http://en.wikipedia.org/w/index.phptitle=United_States_presidential_election,_2012&action=edit" rel="nofollow noreferrer">2012 U.S. presidential election article</a>,包含名为“nomined1”和“nomined2”的字段。玩具示例:</p> <pre><code>In [1]: markup = get_wikipedia_markup('United States presidential election, 2012') In [2]: markup Out[2]: u"{{ | nominee1 = '''[[Barack Obama]]'''\n | party1 = Democratic Party (United States)\n | home_state1 = [[Illinois]]\n | running_mate1 = '''[[Joe Biden]]'''\n | nominee2 = [[Mitt Romney]]\n | party2 = Republican Party (United States)\n | home_state2 = [[Massachusetts]]\n | running_mate2 = [[Paul Ryan]]\n }}" </code></pre> <p>以上面的选举文章为例,我想提取紧跟在“nomineden”字段后面但在调用下一个字段(用pip“|”分隔)之前存在的信息。因此,在上面的例子中,我希望提取出“Barack Obama”和“Mitt Romney”—或者至少是它们嵌入的语法('[[Barack Obama]]''和[[Mitt Romney]])。其他regex有<a href="https://stackoverflow.com/questions/4929082/python-regular-expression-with-wiki-text">extracted links from the wikimarkup</a>,但我(失败)尝试使用<a href="http://docs.python.org/2/library/re.html" rel="nofollow noreferrer">positive lookbehind assertion</a>有点像:</p> ^{pr2}$ <p>我的想法是,它应该找到像“| nominate1=”和“| nomined2=”这样的字符串,在“|”、“nominate”、“=”之间可能有一些空格,然后返回后面的内容,如“Barack Obama”和“Mitt Romney”。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>在这里,从lookings中提取的字符串应该更容易使用。(事实上,lookbehind在这里不能与Python的正则表达式引擎一起工作,因为可选的空格使表达式的宽度可变。)</p> <p>试试这个正则表达式:</p> <pre><code>\|\s*nominee\d+\s*=\s*(?:''')?\[\[([^]]+)\]\](?:''')? </code></pre> <p>结果:</p> ^{pr2}$
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
文本导入时标题行中的特殊字符
7 回答
文本小部件:在没有输入时更新并在循环后保持空闲
4 回答
文本小部件tkin
9 回答
文本小部件tkinter中的标签更改或文本外观更改是否有撤消功能?
6 回答
文本小部件tkinter复制图像选项
9 回答
文本小部件上的Python Tkinter ttk滚动条未缩放
2 回答
文本小部件上的滚动条可能需要根据制表符ord显示前进行滚动
10 回答
文本小部件不显示lis中的内容
7 回答
文本小部件不显示Unicode字符
1 回答
文本小部件中写入的行间距
6 回答
文本小部件中的文本作为变量
5 回答
文本小部件中的滚动条仅显示在底部
6 回答
文本小部件中的选项卡键空间计数
2 回答
文本小部件作为Lis
8 回答
文本小部件在主框架中扩展列宽
5 回答
文本小部件未使用删除功能清除
8 回答
文本小部件滚动动画(Tkinter、Python)
6 回答
文本居中。格式正确吗?
3 回答
文本差分算法
8 回答
文本已知时音频文件中的单词索引
3 回答