汉语词汇提取与新词发现

xinci的Python项目详细描述


新西兰词缀<BR/XXII是汉语词汇提取和新词提取的Python接口。
[ http://pyp.org/Proj/xcim/]
<Br/>要求Python>2.7;用PIP < BR/> `壳牌< BR/> PIP安装XCII
‘BR/>α2。使用Studio.Py
Git克隆GIT@ GITHUB.com:LAPIIS HON/XCII.git
PIP SETUP.PY安装< BR/> 'BR/> BR/>用法> BR/>此包有两个主要用例:词提取和
查找新单词。

1.命令行<BR/>‘壳牌< BR/> CD新品> Python Word ExpActudi.Py<BR/>‘BR/>或
‘BR/> /运行。SH
‘BR/>BR/>>2。“Byth/Br/>导入日志记录。BR/>日志记录。Basic CONFIG(level = Loggin.inf,Frase= %'(ActhTimes)S:%(消息)s):BR/>< BR/> init缺省字典或用户DIC,
DIC= Xini。Python包'BR/>#或dic.dictionary
print(vocab

XC是一个集合
XC= XCII。XC中的W(BR/TXT)的提取< BR/>:
(W)BR/>提取所有单词,C是一个集合
C= XCII。all_words=True)
for w in xc:
print(w)
```
result
```angular2html
发现5个新词如下:
@新词 @词频
祛斑 13
后再 7
今日头条 9
洗净切 7
蛋液 9
```
### Notes: Iteratively add "not seems to new words" in result to common dic will improve a lot. < BR> > BR/>‘Python’Br/> XC= XINCI字长[2]
最大候选字长[5]
最小候选字长阈值:int,要提取的最小字数[5]
实心字长阈值:float,实心字长阈值[0.018]
熵阈值:float,熵阈值[1.92]
所有字长:bool,设置true可提取所有字长模式[false]
保存文件:字符串,输出文件[无]
```

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用MongoDB进行java漏斗分析?   java如何重构此代码以仅执行一次方法logViolation(),并在单个字符串中获取字符串变量(speedType)的所有值   java如何将方向向量转换为角度?   Java中json文件中的股票价格   java有没有一种方法可以查看网站中的哪些资源加载了selenium?   java文件定位器可以指向不同文件服务器上的目录吗?   java GWT等待SetVisibleRange和ClearData完成   macos Java Applet无法在Mac OS下接收鼠标输入   java BottomNavigationView不支持单次单击必须单击两次   MS SQL Server 2012中的java:我的数据库名称是J.3.0.0\u DEV我无法在Oracle SQL Developer IDE中连接它?   java对JFileChooser的修改,只显示文件夹内容   java如何将动态对象查询更改为criteria builder或更好的性能   java中的swing新字体类型   java Hibernate。删除未使用的条目   上载CSV文件并将其转换为Java模型对象   java如何将信息添加到库的日志消息中?   JavaEclipseGit:使用egit从另一个分支、标记或引用打开版本   使用Firebase控制台消息的java开放视频