回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>有些单词有发音。不管怎样,我只想提取第一个词</p>
<pre><code>A AH0
A'S EY1 Z
A(2) EY1
A. EY1
A.'S EY1 Z
A.S EY1 Z
A42128 EY1 F AO1 R T UW1 W AH1 N T UW1 EY1 T
AAA T R IH2 P AH0 L EY1
AABERG AA1 B ER0 G
AACHEN AA1 K AH0 N
AAKER AA1 K ER0
AALSETH AA1 L S EH0 TH
AAMODT AA1 M AH0 T
AANCOR AA1 N K AO2 R
AARDEMA AA0 R D EH1 M AH0
</code></pre>
<p>我试过<code>regex= r"(\A[A-Z]+\b) | (\A[A-Z\'w]+\b)"</code></p>
<p>\A:只在字符串开头匹配。在</p>
^{pr2}$
<p>\b:再次从<a href="http://docs.python.org/2/library/re.html" rel="nofollow">http://docs.python.org/2/library/re.html</a>开始,我认为这就像是一个边界b/w字母数字和非字母数字。在</p>
<pre><code>What is happening is these are being collected:
('A', ' ')
('A', ' ', 'B', 'E', 'G', 'R') is actually AABERG
('A', ' ', 'C', 'E', 'H', 'N') AACHEN
('A', ' ', 'C', 'O', 'N', 'R')
('A', ' ', 'D', 'M', 'O', 'T')
('A', ' ', 'E', 'D', 'M', 'R')
('A', ' ', 'E', 'H', 'L', 'S', 'T')
('A', ' ', 'K', 'R', 'E') AAKER
</code></pre>
<p>我以元组列表的形式收集它们(一个单词作为元组中的单个字母)
这就是我要做的。问题是,我发现当重复字母A在这里重复不止一次时:“A”没有被包括进来,而是A
添加“”空空白。发生什么事了?我只想在这里提取第一个起始词,<code>not A(2) or whitespaces or (,),[,] or any other symbolic character except for "'\'"</code>这就是为什么我想添加[A-Z'w]</p>
<p>如果有人能告诉我如何添加多个条件</p>
<p><code>regex= r"(\A[A-Z]+\b) | (\A[A-Z\'w]+\b) | ^\A[A-Z]+\b"</code>这能^\A[A-Z]+\b“在提取或^\A[A-Z]+\s”这更好吗?我很困惑。在</p>
<h2>更新</h2>
<p>如果我也想要</p>
<pre><code>;Semi-colon
A.S
.Dot
</code></pre>
<p><code>r'[^\SA-Z\\]+</code>能起作用吗?这<code>'\\'</code>取自Inbar-Rose的下面的溶液。还在想那是怎么回事</p>