擅长:python、mysql、java
<p>首先我要警告你,对一百万条记录使用这个代码是危险的。您正在处理正则表达式,只要表达式是正则的,这个方法就很好。否则,您可能会创建成吨的案例来提取您想要的数据,而不提取您不想要的数据。你知道吗</p>
<p>对于100万个案例,你需要熊猫,因为循环太慢了。你知道吗</p>
<pre><code>import pandas as pd
import re
df = pd.DataFrame({'C1': [12088
,12089],'C2':["CITA","CITA"],"C3":["Hello very nice lists, better to keep those",
"This is great theme for lists keep it"]})
df["C3"] = df["C3"].map(lambda x:
re.findall('(?<=Hello)[\w\s,]*(?=keep)|(?<=great)[\w\s,]*',
str(x)))
df["C3"]= df["C3"].map(lambda x: x[0].strip())
df["C3"].map(lambda x: x.strip())
</code></pre>
<p>这给了</p>
<pre><code>df
C1 C2 C3
0 12088 CITA very nice lists, better to
1 12089 CITA theme for lists keep it
</code></pre>