我正在尝试提出一个正则表达式,它匹配一个特定的模式,通过这个模式,我在文本文件中的文章可以被安排。 (注意:“|”表示段落标记/换行符,而“.”表示一些非单词字符)
|
...........................Dokument.1.von.55|
|
|
|
..........................Some newspaper|
|
..........................Freitag 08. Mai 2015
|
sometextsometextsometextsometextsometextsometextsometextsometextsometextsometext
sometextsometextsometextsometextsometextsometextsometextsometextsometextsometext
(etc..)
|
METAINFO1: IWOIOWIEOWEIWOEIWEO
|
(etc... possibly more metainfo all capitalized)
|
|
.........................Copyright 2015 some publisher notes
.........................at most one more single line containing copyright information
.........................Alle Rechte vorbehalten|
# note: last line alternatively: All Rights Reserved
|
(next pattern i.e. article)
(为了版权,我不得不匿名)
我创建了以下用于提取单个项目的正则表达式:
^[\r\n]
[\W]+Dokument \d{1,} von \d{1,}
[\r\n]+
[\w\W]+
[r\n]
[\W]+(Alle Rechte vorbehalten|All Rights Reserved)
$
因此,整个RE是^[\r\n][\W]+Dokument \d{1,} von \d{1,}[\r\n]+[\w\W]+[\r\n][\W]+(Alle Rechte vorbehalten|All Rights Reserved)$
我已经用Textpad测试过了。当我用RE做反向搜索时,它匹配任何一篇文章(根据需要)。但是当我向前搜索时,它匹配整个文档。你知道吗
一开始我以为它和任何一篇文章都匹配,后来看起来好像它和所有的东西都匹配。但后来我尝试了替换选项,结果我的测试术语只被替换了一次。你知道吗
所以RE没有做好它的工作。我已经在这方面做了一段时间了,但是找不到我的错误。你知道吗
我做错了什么?-我的简历有错误吗?你知道吗
我打算匹配这些文章,将正在工作的RE转换成一个捕获组,然后用一些xml替换它。但我被困在这里了。你知道吗
干杯, 安德鲁
诀窍是使匹配文章主体的部分不贪婪,并为文章定义非常清晰的开始和结束匹配。你知道吗
只是重复一下假设:
相关问题 更多 >
编程相关推荐