语言流畅性反应的聚类。

VFClust的Python项目详细描述


vfclust中的群集

vfclust查找下列类型的词的相邻子集:

    < DL>
    集群 :集群中的每个条目都与每个
    其他条目
    < DL>
    :链中的每个条目都与相邻条目非常相似
    条目

其中"entry"对应于一个词、复合词或多个相邻词 词干相同的单词。

词之间的相似度分数使用阈值化和二值化 经验得出的阈值。允许簇的重叠(一个单词 可以是多个簇的一部分),但重叠链不是 可能,因为任何两个相邻的单词的阈值低于 相似性打破了链条。其他群集包含的群集不 计数。

使用的相似性度量如下:

    < DL>
    拼音/"phone" :计算语音相似性分数(pss)
    在输入单元的语音表示之间。它是平等的 到1减去两个字符串之间的levenshtein距离,标准化 到较长字符串的长度。字符串应该是紧凑的 两个词的语音表示法。(此方法是 对Levenshtein距离函数的修改 http://hetland.org/coding/python/levenshtein.py
    < DL>
    拼音/"双音" :二进制公共双音记分(cbs)取决于
    两个单词是否共享其初始和/或最终的双音(即set 两个音素)。分数为1表示两个词有相同的意思 最初和/或最后的两声;0表示两个字 既没有相同的首双音也没有最终的双音这也是 使用两个单词的语音表示进行计算。
    < DL>
    语义/"lsa" :语义相关度得分(srs)计算为
    第一和第二项向量的余弦 指定群集参数的LSA空间中的字。不像 在语音方法中,此方法使用 输入单位对象。
    < DL>
    语义/"自定义" :用户可以指定单词相似性的自定义文件,
    其中每对单词都有一个自定义的simi拉里分数。

输出

在使用与 进行流利性测试的类型,指标来源于聚类 并输出到screen和一个.csv文件(如果作为脚本运行)或python dict对象(如果作为包运行)。计算以下指标:

原始输入中不同令牌类型的计数。每一个都是 在输出中以"count"开头。

    < DL>
    总字数:字数(即具有语义内容的话语)
    主题所说的。充满了停顿,沉默,咳嗽,呼吸, 面试官的话等都不算在内。 < DL>
    允许的字数 :主题所说的字数
    根据聚类标准,符合有效响应的条件。 在语义聚类中,复合词被视为单个词, 但在语音聚类中作为两个词。
    < DL>
    精确重复次数 :重复前面所说单词的单词数
    在回复中。语义聚类中的响应元素化 在调用此函数之前,可能会有一些细微的变化(dog,dogs) 算作准确的回答。
    < DL>
    词干重复 :词干数与发出的词相同
    根据波特·斯特默的说法,在回答的早些时候。为了 例如,"sled"和"sledding"具有相同的杆("sled"),并且 "滑橇"将被视为茎重复。
    < DL>
    考官字数:考官说出的字数。这些开始
    使用.textgrid文件中的"e"键。
    < DL>
    填充停顿:主题发出的填充停顿数。这些
    从.textGrid文件中的"filledPause"开始。
    < DL>
    单词片段 :主题发出的单词片段数。
    这些在.textgrid文件中以"-"结尾。
    < DL>
    旁白 :受试者所说的与测试不符的话
    标准计算为aside,即不以 合适的字母或不代表动物的字母。
    < DL>
    唯一允许字数:主题所说的作品数量,
    更少的asides,茎重复和精确重复。

从响应中的簇/链派生的度量。每一个都是 以"collection"开头,以及使用的相似性度量和 计算度量的集合类型。

    < DL>
    成对相似性得分平均值 :成对相似性平均值
    得分。成对相似性计算为 响应中所有成对词对的相似性分数-除了 任何一对由一个词和它本身组成的词-除以总数 试图说出的话。即,所有配对的平均相似性 单词对。
  • 计数 :集合数
  • 大小平均值 :集合的平均大小
  • 大小最大值 :最大集合的大小
  • 开关计数 :群集之间的更改数

从响应中的计时信息以及 集群/链。每一个都以"时间"和 以及所使用的相似性度量和集合类型 测量值计算完毕。

    < DL>
    响应元音持续时间平均值 :所有元音的平均元音持续时间
    在响应中。
    < DL>
    响应持续时间平均值 :所有的平均元音持续时间
    应答中的元音。 < DL>
    收集间隔时间平均值 :平均间隔
    分离集群的持续时间。负间隔(用于重叠 集群)计算为0秒。间隔计算为 最后一个单词的结束时间 集合和后面第一个单词的开始时间 收集。注意这些间隔不一定是沉默, 可能包括旁白、填空停顿、考官的话等。
    < DL>
    在采集间隔时间内平均值 :之间的平均时间
    集合中每个单词的结尾和下一个单词的开头 单词。注意,这些时间不一定反映停顿,因为 集合成员可以由aside或其他噪声分隔。
    < DL>
    集合内的元音持续时间平均值 :元音的平均持续时间
    在集合中发生的 < DL>
    在集合内持续时间平均值 :平均持续时间
    集合中出现的连续体。

依赖关系

这个包已经在mac os x(mavericks)上测试过了。为了跑步 您的计算机上必须安装以下软件包:

  1. python 2.7版
  2. < DL>
    pip :pip应该与python 2.7一起安装。如果由于某种原因pip
    未安装,请转到您选择的终端或命令行,然后 在下面输入命令:
easy_install pip
  1. nltk :vfclust需要自然语言工具包(nltk),因为它 在分析主题响应时使用NLTK引理器和词干分析器。 有关如何安装的详细信息,请查看http://www.nltk.org < < < > > >
pip install nltk
  1. numpy :一些数据文件存储为numpy数组。本遗嘱 未来版本的更改,但目前要求numpy
pip install numpy
  1. gcc :在Mac OS X上,您需要安装最新版本的 使用命令行工具与您的os x版本兼容的xcode 软件包( https://developer.apple.com/xcode/ )。记住你 可能需要在xcode中启用命令行工具才能 使用gcc编译器。如果不能在之后从命令行运行gcc 安装xcode,转到xcode首选项/下载选项卡 选择"命令行工具"旁边的"安装"按钮。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
opencv如何在java中将Ipl图像转换为Mat图像   带有Cordova CLI的java Android Studio   用于XML解析的JAXB的java替代方案   java LibGdx如何在保持纵横比的同时调整游戏窗口的大小?   java项目Euler,#1   java将活动中定义的布局更改为xml布局   java获得的位置和纬度分别为0.0和0.0   select语句的java Mybatis内联类型处理程序   使用ViewPager从应用程序中的主活动调用findViewById方法时发生java NullPointerException   java LRU缓存中的pair[]getAll()是什么意思?   sql查询Java不执行   java在IntelliJ中将JAR添加到WEBINF/lib目录的正确过程是什么   java在lucene中索引布尔值的最佳选择是什么?   java Sentry初始化崩溃,尝试查找jdk时出现NoSuchMethod错误。内部的反映反射寄存器方法过滤器