擅长:python、mysql、java
<p>尝试以下代码。它收集<code>Ref</code>之后的所有数据,直到一个预定义的塞子。使用句号是因为问题没有明确定义什么数据是引用(<code>not always the same pattern</code>,<code>might be mixed with</code>,<code>for a human eye there is almost always</code>)。我想需要额外的匹配处理来更准确地提取实际引用。在</p>
<pre><code>import re
ref_re = re.compile('(?P<ref_keyword>Referenz|Ref\.|Ref)[ ]*(?P<ref_value>.*?)(?P<ref_stopper> - | / |,|\n)')
with open('1.txt', mode='r', encoding='UTF-8') as file:
data = file.read()
for match in ref_re.finditer(data):
print('key:', match.group('ref_keyword'))
print('value:', match.group('ref_value'))
# print('stopper:', match.group('ref_stopper'))
</code></pre>
<p>输出从以下行开始:</p>
^{pr2}$