汉语词汇提取与新词发现
xinci的Python项目详细描述
新西兰词缀<BR/XXII是汉语词汇提取和新词提取的Python接口。
[ http://pyp.org/Proj/xcim/]
<Br/>要求Python>2.7;用PIP < BR/> `壳牌< BR/> PIP安装XCII
‘BR/>α2。使用Studio.Py
Git克隆GIT@ GITHUB.com:LAPIIS HON/XCII.git
PIP SETUP.PY安装< BR/> 'BR/> BR/>用法> BR/>此包有两个主要用例:词提取和
查找新单词。
1.命令行<BR/>‘壳牌< BR/> CD新品> Python Word ExpActudi.Py<BR/>‘BR/>或
‘BR/> /运行。SH
‘BR/>BR/>>2。“Byth/Br/>导入日志记录。BR/>日志记录。Basic CONFIG(level = Loggin.inf,Frase= %'(ActhTimes)S:%(消息)s):BR/>< BR/> init缺省字典或用户DIC,
DIC= Xini。Python包'BR/>#或dic.dictionary
print(vocab
XC是一个集合
XC= XCII。XC中的W(BR/TXT)的提取< BR/>:
(W)BR/>提取所有单词,C是一个集合
C= XCII。all_words=True)
for w in xc:
print(w)
```
result
```angular2html
发现5个新词如下:
@新词 @词频
祛斑 13
后再 7
今日头条 9
洗净切 7
蛋液 9
```
### Notes: Iteratively add "not seems to new words" in result to common dic will improve a lot. < BR> > BR/>‘Python’Br/> XC= XINCI字长[2]
最大候选字长[5]
最小候选字长阈值:int,要提取的最小字数[5]
实心字长阈值:float,实心字长阈值[0.018]
熵阈值:float,熵阈值[1.92]
所有字长:bool,设置true可提取所有字长模式[false]
保存文件:字符串,输出文件[无]
```
[ http://pyp.org/Proj/xcim/]
<Br/>要求Python>2.7;用PIP < BR/> `壳牌< BR/> PIP安装XCII
‘BR/>α2。使用Studio.Py
Git克隆GIT@ GITHUB.com:LAPIIS HON/XCII.git
PIP SETUP.PY安装< BR/> 'BR/> BR/>用法> BR/>此包有两个主要用例:词提取和
查找新单词。
1.命令行<BR/>‘壳牌< BR/> CD新品> Python Word ExpActudi.Py<BR/>‘BR/>或
‘BR/> /运行。SH
‘BR/>BR/>>2。“Byth/Br/>导入日志记录。BR/>日志记录。Basic CONFIG(level = Loggin.inf,Frase= %'(ActhTimes)S:%(消息)s):BR/>< BR/> init缺省字典或用户DIC,
DIC= Xini。Python包'BR/>#或dic.dictionary
print(vocab
XC是一个集合
XC= XCII。XC中的W(BR/TXT)的提取< BR/>:
(W)BR/>提取所有单词,C是一个集合
C= XCII。all_words=True)
for w in xc:
print(w)
```
result
```angular2html
发现5个新词如下:
@新词 @词频
祛斑 13
后再 7
今日头条 9
洗净切 7
蛋液 9
```
### Notes: Iteratively add "not seems to new words" in result to common dic will improve a lot. < BR> > BR/>‘Python’Br/> XC= XINCI字长[2]
最大候选字长[5]
最小候选字长阈值:int,要提取的最小字数[5]
实心字长阈值:float,实心字长阈值[0.018]
熵阈值:float,熵阈值[1.92]
所有字长:bool,设置true可提取所有字长模式[false]
保存文件:字符串,输出文件[无]
```