擅长:python、mysql、java
<p>这里有一个正则表达式,它可以得到其中的大部分。它利用了authors字段(几乎)总是以</p>
<blockquote>
<p><em>and</em> Last Author.</p>
</blockquote>
<p>或者很少</p>
<blockquote>
<p><em>&</em> Last Author</p>
</blockquote>
<p>这是正则表达式。它符合你提供的17/20。它不匹配的3不使用上述作者约定。此外,在出版物包含<code>,</code>的情况下,标题/出版物也会出错</p>
<p>就像<code>Potsdam, Germany</code>。最好的办法可能是修复与作者约定不匹配的少数引用(在最后一位作者之前插入一个<code>and</code>),并手动修复出现错误的少数标题出版物。你知道吗</p>
<pre><code>^(.+ (?:and|&) (?:(?:[A-Z]\.-?)+ [A-Z][a-z]+\.{1,2}|[A-Z][a-z]+(?:, (?:[A-Z]\.)+\.?))) (.+),(.+), (v\..+), (\d{4}), (p\.\s*.*)\.$
</code></pre>
<p><a href="https://regex101.com/r/tI0cJ4" rel="nofollow">Here is an example</a>使用你给出的20个例子。你知道吗</p>