正则表达式删除特定模式中的所有内容,包括模式本身。除去乳胶

2024-09-30 04:30:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我想删除两种非常特殊的模式,一种是latex,另一种是大写字母,但问题是有很大的变化,我不知道如何删除它们

第一种模式相对简单,可以从文本中删除所有信息。如果我的文字看起来像

1.

'hello \( [\mathrm{BHU} \cdot 05, \cdot 06] \) my name'  #(very common)
or 
hello\( [\mathrm{BHU} \cdot 05, \cdot 06] \)my name #(rare)

我希望它只是'hello my name'

我用了re.sub("/(\s*",'', 'fsdfv //(') 但它正在显示error: missing ), unterminated subpattern at position 1

还有一个陷阱。这里有一些信息,我想保留这些信息。 例如:

\( \begin{array}{ll}\text { 34. Crossing over helps in } & \text { [AFMC'02] }\end{array} \)

我想保留34. Crossing over helps in[AFMC'02]

2.: 第二个类似于下面给出的,是上述问题的扩展

[AFMC'02]
[ AFMC 2011 ]
[MHCET 2004; J \& K CET 2008]
{AIEEE}
{ IIT-JEE }
{ U.P.T.U. }
(UPTU)

也有类似于(x-y)*3=2的方程,但上面的问题只有大写字母,方程有小写字母

如何从数据中删除这些模式。这些在我的NLP问题中就像垃圾值一样,我不知道如何删除它们。请帮忙


Tags: textname信息hellomy模式大写字母array

热门问题