库返回几乎所有俄语单词的单词频率(ipm)

ruword-frequenc的Python项目详细描述


说明

python库ruword_frequency返回俄语单词的频率(ipm-items/million),不区分大小写。 它基于大量的俄语文档和准备的词频来源。完整列表:

从所有枚举源中提取word的ipm并使用平均值。 完整的索引包含了70亿个单词,其中包括来自原始数据源的错误(不幸的是)。

要求:

  • Python3
  • word索引在硬盘上占据了将近50mb的空间,并且将在您第一次调用frequency.load()方法时被下载

安装

# TODO

用法

from ruword_frequency import Frequency
freq = Frequency()
freq.load()

freq.ipm('привет')
>>> 53.51823806762695

freq.ipm('неттакогослова')
>>> 0.0

# get max ipm value. For weights normalization, for example
freq.max_ipm()
>>> 42329.2890625

# get list of most used words  with ipm more then 10000
for w in freq.iterate_words(10000):
    print(w)

有关其他有用的方法,请参见marisa-trie文档。 树索引可用作freq.tree

自行重建树

from ruword_frequency.source_reader import SourceReader
reader = SourceReader()

# increase socket timeout, sometimes helpful for huge file downloading:
import socket
socket.setdefaulttimeout(60)

reader.download_all_sources()
tree = reader.build_tree_from_dictionaries()
reader.save_tree(tree)

# use it 
freq = Frequency()
freq.ipm('привет')

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在使用apache poi获取空行中的getLastCellNum()方法时获取nullPointerException   向方法发送多个参数并返回值,Java   转换SVG时Batik出现java错误:<use>元素的属性“xlink:href”是必需的   使用迭代器时的java ConcurrentModificationException<Node>   java Maven正在向本地存储库安装一个不在依赖关系树或我的POM中的依赖关系   java如何检测设备是否有传感器使用Kotlin中的指南针?   如何选择在seleniumjava中运行时生成div[i]的复选框?   java使用Spring和html表单获取对象   传递特定格式字符串的java构造函数   解组错误时找不到java类。带字节数组的包裹,字节[]   在Java中,如何从超类方法中获取子类值?   java hibernate如何确保用数据库中的最新数据更新二级缓存   多线程在java中是Mac#doFinal()线程安全的吗?   java apache velocity:附带编译的模板   java禁用安卓 webview中的弹出窗口和警报框   为什么ANT不为构建使用Eclipse工作区默认JRE   java MySQL:ON DUPLICATE KEY语句在JDBC中失败   java Spring+AngularJs+Tomcat 9.0 403发送PUT请求时出错   Java服务器在需要时侦听socket