擅长:python、mysql、java
<p>好吧,我找到了解决办法。谢谢jcaliz,<code>'.*\(</code>部分是金色的!
这就是我所做的:</p>
<pre><code> item1 = []
for line in ingredssplit:
line=re.sub('.*\(', '', line)
item1.append(line)
def remove_punc(string):
punc = '''!()-[]{};:'"\,<>./?@#$^&*_~'''
for ele in string:
if ele in punc:
string = string.replace(ele, "")
return string
lis = [remove_punc(i) for i in item1]
lis = list(filter(None, lis))
lis=[i.lstrip() for i in lis]
lis=[i.rstrip() for i in lis]
lis
</code></pre>
<p>这给了我一个清单:</p>
<pre><code>['MAGERMILCH 65%',
'Wasser',
'WEIZENMEHL',
'Traubensaftkonzentrat',
'Palmöl',
'Stärke',
'Maiskeimöl',
'Zucker',
'Antioxidationsmittel Ascorbinsäure¹',
'Vitamin B1']
</code></pre>
<p>我可以轻松地将其转换为数据帧,例如:</p>
<pre><code>lis=pd.DataFrame(lis)
lis
0
0 MAGERMILCH 65%
1 Wasser
2 WEIZENMEHL
3 Traubensaftkonzentrat
4 Palmöl
5 Stärke
6 Maiskeimöl
7 Zucker
8 Antioxidationsmittel Ascorbinsäure¹
9 Vitamin B1
</code></pre>
<p>谢谢大家!:)</p>