擅长:python、mysql、java
<p>我只需要使用regex粗略地提取可能的对:</p>
<pre><code>import re
test = '''Lorem ipsum dolor sit amet, 100.000,00 USD sadipscing elitr, sed diam nonumy eirmod
GBP 400 ut labore et dolore magna aliquyam erat, sed diam voluptua. At USD 20 eos et
accusam et justo duo dolores et 100,000.00 USD ea rebum. Stet 3, USD gubergren, no'''
number = r'([\d+.,]+)'
currency = r'([A-Z]{2,3})'
r1 = re.compile(number + r'\s+' + currency)
r2 = re.compile(currency + r'\s+' + number)
matches = r1.findall(test) + r2.findall(test)
print(matches)
</code></pre>
<p>我得到:</p>
^{pr2}$
<p>从那里,你可以解析数字并过滤出不存在的货币。你只有五到六种可能的格式,所以在这里机器学习对你没有任何帮助。在</p>