我面临的挑战是找到;替换模式以使段落正常化。举个例子更容易理解:我有很多词,比如:
- nm5638238.tmp、nm23345.tmp、nm56382334.tmp等
- myfile0x233454、myfile0x233124、myfile0x23AW54等
等等。问题是我不喜欢regex方法,因为它是如此的习惯(我的意思是,我需要一个regex用于每个案例)。我需要一个“无人参与”的方法,比如发现一个模式是例如myfileSOMETHING,另一个是nmSOMETHING.tmp,等等。有什么NLP技术可以向我建议吗
谢谢
Tags:
根据你的描述,你不需要那么多正则表达式来解决这个问题。我是说,如果这是你的两种模式,你甚至可以: (如果“para”是您的段落字符串)
对你有用吗
相关问题 更多 >
编程相关推荐