使用python高效地自动更正整个文本文件?

2024-10-02 12:23:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在预处理大约10万个句子。 为了改进ML预测,我们可能应该对数据运行某种自动更正/拼写检查。然而,到目前为止,我发现python中的大多数实现都很慢。在python中有没有一种高效、简单的方法来自动更正整个文本文件?在

我试图在https://github.com/phatpiglet/autocorrect/中使用它,但它花费了相当长的时间(我没有很好地实现它,但是我想已经有人在某处做过了)


Tags: 数据方法httpsgithubcom时间ml句子
1条回答
网友
1楼 · 发布于 2024-10-02 12:23:31

正如@Vishnudev提到的,更喜欢使用SymSpellCompound

根据基准测试,它比其他拼写更正实现要快几个数量级。 请参考graph

如果您阅读了autocorrect背后的代码,它会提到它是基于peternorvig的可用实现here

还尝试了基准测试spacy_hunspell,但未能将性能计时提高超过+15-20%

其他改进轨道:

  • 利用python多处理模块。在
  • 如果您使用pandas,请考虑使用Dask框架进行并行处理。在

祝你工作顺利!在

相关问题 更多 >

    热门问题