语言模型支持校对器纠正自然语言中的上下文错误。
lmproof的Python项目详细描述
语言模型校对器
图书馆利用预先训练好的语言模型,对语法错误、拼写错误、混淆词错误和其他错误进行校对。在
使用
通过python -m spacy download en
安装空间模型。
那就试试这个片段。在
importlmproofproof_reader=lmproof.load("en")source="The foxes living on the Shire is brown.'"corrected=proof_reader.proofread(source)# "The foxes living in the Shire are brown."
它是如何工作的?在
我们使用Christopher Bryant and Ted Briscoe. 2018中提到的基于语言模型的评分方法,几乎没有什么变化。在
与许多GEC方法不同,这种方法不需要带注释的训练数据,主要依赖于单语语言模型。程序的工作原理是反复比较文本中的特定单词和备选候选单词,如果其中一个候选单词比原始单词更有可能,则应用更正。这些校正候选者由单词屈折变化库生成,或者以其他方式手动定义。目前,此系统仅纠正:
^{pr2}$这项工作建立在https://github.com/chrisjbryant/lmgec-lite/
组件
语言模型
拐点发生器
- LemmInflect用于对语言模型的候选建议进行柠檬化和生成屈折。在
拼写检查
- symspellpy用于获取拼写检查候选项。在
这些组件是高度模块化的,以便于使用更新的记分器进行实验,并支持更多的语言。 为其他语言预先训练的语言模型、屈折因子、常见错误模式可以很容易地添加以支持更多的语言。在
待办事项
- 使用现有GEC语料库中的编辑生成候选文本。在
- 测试
- 发布模型的基准。在
- 想出一些简单的方法来生成插入候选项。在
- 添加更多语言。在
- 项目
标签: