我有一系列这样的产品成分:
text = 'Pork and beef, water, salt (1,7%), spices (white pepper, nutmeg, coriander, cardamom), stabilizer (E450), glucose, antioxidant (E316), a preservative (E250), flavorings'
我想检测它的所有文本(成分),这样它应该像这样
ingredientsList= ['Pork and beef', 'salt', 'spices', 'white pepper', 'nutmeg', 'coriander', 'cardamom', 'stabilizer', 'glucose', 'antioxidant', 'preservative', 'flavorings']
我在这里使用的当前正则表达式如下:
ingredients = re.findall(r'\([^()]*\)|([^\W\d]+(?:\s+[^\W\d]+)*)', text)
但它没有提供括号中的文本。我只是不想包括代码和百分比,但要在括号内的所有成分。我该怎么办?提前谢谢
您可以将第一个分支限制为只匹配以
E
开头并后跟数字的代码:参见regex demo
现在,}
\(E\d+\)
将只匹配类似(Exxx)
的子字符串,其他子字符串将被处理。您也可以在这里添加百分比,以显式跳过它们-^{Python demo:
相关问题 更多 >
编程相关推荐