从语义上拆分错字的包

fr-word-segment的Python项目详细描述


法语分词

通常在从开源ocr(如tesseract)中提取文本时,由于ocr质量的提取,我们很可能会遇到链接词。

例如: 与其提取“tr_s bon service”,人们可能会突然获得“tr_s bonservice”。因此,在使用bow、tfidf甚至word2vec模型进行特征工程时,算法会将“bonservice”视为一个唯一的特征,而不是。

为了解决这个问题,我建立了一个模块来处理语义分词,而不需要任何预定义的语料库。

安装

使用包管理器pip安装fr_word_段。

pip3 install fr-word-segment
python3 -m spacy download fr

用法

fromfr_word_segmentimportwordseg# suppose that a french spellchecker detect this token as misspelledtoken="soitmoinscompliqué"# apply segmentation function on the given tokenresult=wordseg.segment_token(token)# show resultsprint("raw token is {}".format(token))# "soitmoinscompliqué"print("processed token is {}".format(result))# "soit moins compliqué"

贡献

欢迎拉取请求。对于重大变更,请先打开一个问题来讨论您希望更改的内容。

许可证

MIT

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JavaSpringBootHibernate5忽略@Table和@Column   java readLine是如何工作的?   java除了Oracle的JVM(windows)之外,还有什么BSD许可的替代方案吗?   javascript处理程序执行导致异常:所需的MultipartFile参数“file”不存在   java如何检查url是否与标识符匹配?   java在对象创建之后实现一个接口   java安卓:如何将github库放入项目中   java如何制作自定义文本组件?   如何在java中更新属性文件   java Hibernate持久映射   JavaSpring批处理如何从postgres读取数据,然后在步骤中写入数据   java应用程序已在Android Emulator Eclipse中停止   java找不到参数[org.jetbrains.kotlin:kotlinstdlibjdk7:1.3.50]的方法实现()   java AWS DynamoDB如何从数据库中获取只有一个字段的对象   在使用ajax进行表单提交时,java无法阻止默认表单提交   集合如何在Java中定义基于两个变量进行比较的比较器   多线程基准测试Java中的多线程集合   java如何通过浏览器运行终端程序?