语言模型支持校对器纠正自然语言中的上下文错误。

lmproof的Python项目详细描述


语言模型校对器

图书馆利用预先训练好的语言模型,对语法错误、拼写错误、混淆词错误和其他错误进行校对。在

使用

通过python -m spacy download en安装空间模型。 那就试试这个片段。在

importlmproofproof_reader=lmproof.load("en")source="The foxes living on the Shire is brown.'"corrected=proof_reader.proofread(source)# "The foxes living in the Shire are brown."

它是如何工作的?在

我们使用Christopher Bryant and Ted Briscoe. 2018中提到的基于语言模型的评分方法,几乎没有什么变化。在

与许多GEC方法不同,这种方法不需要带注释的训练数据,主要依赖于单语语言模型。程序的工作原理是反复比较文本中的特定单词和备选候选单词,如果其中一个候选单词比原始单词更有可能,则应用更正。这些校正候选者由单词屈折变化库生成,或者以其他方式手动定义。目前,此系统仅纠正:

^{pr2}$

这项工作建立在https://github.com/chrisjbryant/lmgec-lite/

组件

语言模型

拐点发生器

  • LemmInflect用于对语言模型的候选建议进行柠檬化和生成屈折。在

拼写检查

这些组件是高度模块化的,以便于使用更新的记分器进行实验,并支持更多的语言。 为其他语言预先训练的语言模型、屈折因子、常见错误模式可以很容易地添加以支持更多的语言。在

待办事项

  • 使用现有GEC语料库中的编辑生成候选文本。在
  • 测试
  • 发布模型的基准。在
  • 想出一些简单的方法来生成插入候选项。在
  • 添加更多语言。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java随机填充2d数组   java运行时。getRuntime。带有长参数的exec(cmd)   java Minecraft无法放置自定义背景   java AChartEngine YAxis自定义标签区域边距和图表值为字符串?   泛型类的java类型安全错误   整数的java符号等价物。toBinaryString方法?   Java中数组列表的数组   java WebView应用程序在谷歌登录后显示空白屏幕   java从backback中删除特定片段   如果服务器不支持使用的协议,java JSSE是否实现回退?   java Sonarqube正在进行核心漏洞查找。如何解决   javajavax。jcr。UnsupportedPositionOperationException:testVersionable处的节点不可版本化   java在安卓中每隔X小时运行一次文件/函数,无需打开应用程序   java如何为磁盘持久性配置BigMemory?   java BufferWriter不转换383以上的整数   Java7交集类型:规范具体说明了什么?   Java:CollectionHow创建多列   java如何检测运算符的空白   java问题:在firebase中为导航栏中的第二个表单提交数据第一个表单工作正常。实际isse是连接Mainactivity中的另一个活动