擅长:python、mysql、java
<p>我不认为会有一个单一的正则表达式,你可以使用这个,除非它真的很讨厌。我想解决这个问题的办法可能是<a href="http://en.wikipedia.org/wiki/Natural_language_processing" rel="nofollow">Natural Language Processing</a>。当然,有一些软件包可以解决这个问题,但是使用它们可能并不简单。在</p>
<p>基本上,你想用一个像“X is/was Y”这样的句子,找出哪个部分是名字,哪个部分是职位列表,哪些部分是无关的。也许要寻找大写的单词序列或者像“and”和“of”这样的小单词?在</p>
<pre><code>(?:\u\w+)( (?:\u\w*)|(?:of)|(?:and))* #Note the space
</code></pre>
<p><code>\u</code>表示下一个单个字符(<code>\w+</code>组的第一个字符)是大写的。还没有测试过,但看起来应该有用。这可能是个不小的问题。在</p>