擅长:python、mysql、java
<p>我稍微重新格式化了正则表达式,如下所示:</p>
<pre><code>pattern = re.compile(r'([A-Z]+):(.*)')
</code></pre>
<p>+给了我一个或无限个大写字母,所以这只是对之前的regex代码进行了一点清理。
我还修改了它以创建捕获组,第一个是“:”前的任何大写字母,第二个是“:”之后的任何文本。在</p>
<p>现在第二个匹配项(组(0)是整个匹配项,组(1)是名称)可以用于附加到字典中,并且可以附加连续的文本。在</p>
<p>为了处理添加遵循这个初始regex模式的缺失语句的问题,我使用了一个状态机。
注意,这仅仅是因为我假设下面所有来自regex匹配的文本都应该属于从regex模式找到的说话人。在</p>
^{pr2}$
<p>这次采取了一些IRL的帮助,但我认为这个解决方案在这个例子中很好地工作,可以帮助其他人。我用这个来分析第二次辩论,效果很好。我可能会对它进行修改,以便按顺序添加语句,这样我就可以结合twitter数据进行一些相关性分析。在</p>