2024-10-02 12:23:31 发布
网友
我目前正在预处理大约10万个句子。 为了改进ML预测,我们可能应该对数据运行某种自动更正/拼写检查。然而,到目前为止,我发现python中的大多数实现都很慢。在python中有没有一种高效、简单的方法来自动更正整个文本文件?在
我试图在https://github.com/phatpiglet/autocorrect/中使用它,但它花费了相当长的时间(我没有很好地实现它,但是我想已经有人在某处做过了)
正如@Vishnudev提到的,更喜欢使用SymSpellCompound
根据基准测试,它比其他拼写更正实现要快几个数量级。 请参考graph
如果您阅读了autocorrect背后的代码,它会提到它是基于peternorvig的可用实现here
还尝试了基准测试spacy_hunspell,但未能将性能计时提高超过+15-20%
其他改进轨道:
祝你工作顺利!在
正如@Vishnudev提到的,更喜欢使用SymSpellCompound
根据基准测试,它比其他拼写更正实现要快几个数量级。 请参考graph
如果您阅读了autocorrect背后的代码,它会提到它是基于peternorvig的可用实现here
还尝试了基准测试spacy_hunspell,但未能将性能计时提高超过+15-20%
其他改进轨道:
祝你工作顺利!在
相关问题 更多 >
编程相关推荐