语言流畅性反应的聚类。
VFClust的Python项目详细描述
vfclust中的群集
vfclust查找下列类型的词的相邻子集:
- 集群 :集群中的每个条目都与每个
- 其他条目
- 链 :链中的每个条目都与相邻条目非常相似
- 条目
其中"entry"对应于一个词、复合词或多个相邻词 词干相同的单词。
词之间的相似度分数使用阈值化和二值化 经验得出的阈值。允许簇的重叠(一个单词 可以是多个簇的一部分),但重叠链不是 可能,因为任何两个相邻的单词的阈值低于 相似性打破了链条。其他群集包含的群集不 计数。
使用的相似性度量如下:
- 拼音/"phone" :计算语音相似性分数(pss)
- 在输入单元的语音表示之间。它是平等的 到1减去两个字符串之间的levenshtein距离,标准化 到较长字符串的长度。字符串应该是紧凑的 两个词的语音表示法。(此方法是 对Levenshtein距离函数的修改 http://hetland.org/coding/python/levenshtein.py )
- 拼音/"双音" :二进制公共双音记分(cbs)取决于
- 两个单词是否共享其初始和/或最终的双音(即set 两个音素)。分数为1表示两个词有相同的意思 最初和/或最后的两声;0表示两个字 既没有相同的首双音也没有最终的双音这也是 使用两个单词的语音表示进行计算。
- 语义/"lsa" :语义相关度得分(srs)计算为
- 第一和第二项向量的余弦 指定群集参数的LSA空间中的字。不像 在语音方法中,此方法使用 输入单位对象。
- 语义/"自定义" :用户可以指定单词相似性的自定义文件,
- 其中每对单词都有一个自定义的simi拉里分数。
输出
在使用与 进行流利性测试的类型,指标来源于聚类 并输出到screen和一个.csv文件(如果作为脚本运行)或python dict对象(如果作为包运行)。计算以下指标:
原始输入中不同令牌类型的计数。每一个都是 在输出中以"count"开头。
- 总字数:字数(即具有语义内容的话语) 主题所说的。充满了停顿,沉默,咳嗽,呼吸, 面试官的话等都不算在内。
- 允许的字数 :主题所说的字数
- 根据聚类标准,符合有效响应的条件。 在语义聚类中,复合词被视为单个词, 但在语音聚类中作为两个词。
- 精确重复次数 :重复前面所说单词的单词数
- 在回复中。语义聚类中的响应元素化 在调用此函数之前,可能会有一些细微的变化(dog,dogs) 算作准确的回答。
- 词干重复 :词干数与发出的词相同
- 根据波特·斯特默的说法,在回答的早些时候。为了 例如,"sled"和"sledding"具有相同的杆("sled"),并且 "滑橇"将被视为茎重复。
- 考官字数:考官说出的字数。这些开始
- 使用.textgrid文件中的"e"键。
- 填充停顿:主题发出的填充停顿数。这些
- 从.textGrid文件中的"filledPause"开始。
- 单词片段 :主题发出的单词片段数。
- 这些在.textgrid文件中以"-"结尾。
- 旁白 :受试者所说的与测试不符的话
- 标准计算为aside,即不以 合适的字母或不代表动物的字母。
- 唯一允许字数:主题所说的作品数量,
- 更少的asides,茎重复和精确重复。
从响应中的簇/链派生的度量。每一个都是 以"collection"开头,以及使用的相似性度量和 计算度量的集合类型。
- 成对相似性得分平均值 :成对相似性平均值 得分。成对相似性计算为 响应中所有成对词对的相似性分数-除了 任何一对由一个词和它本身组成的词-除以总数 试图说出的话。即,所有配对的平均相似性 单词对。
- 计数 :集合数
- 大小平均值 :集合的平均大小
- 大小最大值 :最大集合的大小
- 开关计数 :群集之间的更改数
从响应中的计时信息以及 集群/链。每一个都以"时间"和 以及所使用的相似性度量和集合类型 测量值计算完毕。
- 响应元音持续时间平均值 :所有元音的平均元音持续时间
- 在响应中。
- 响应持续时间平均值 :所有的平均元音持续时间 应答中的元音。
- 收集间隔时间平均值 :平均间隔
- 分离集群的持续时间。负间隔(用于重叠 集群)计算为0秒。间隔计算为 最后一个单词的结束时间 集合和后面第一个单词的开始时间 收集。注意这些间隔不一定是沉默, 可能包括旁白、填空停顿、考官的话等。
- 在采集间隔时间内平均值 :之间的平均时间
- 集合中每个单词的结尾和下一个单词的开头 单词。注意,这些时间不一定反映停顿,因为 集合成员可以由aside或其他噪声分隔。
- 集合内的元音持续时间平均值 :元音的平均持续时间
-
在集合中发生的
< DL> - 在集合内持续时间平均值 :平均持续时间
- 集合中出现的连续体。
依赖关系
这个包已经在mac os x(mavericks)上测试过了。为了跑步 您的计算机上必须安装以下软件包:
- python 2.7版
- pip :pip应该与python 2.7一起安装。如果由于某种原因pip
- 未安装,请转到您选择的终端或命令行,然后 在下面输入命令:
easy_install pip
- nltk :vfclust需要自然语言工具包(nltk),因为它 在分析主题响应时使用NLTK引理器和词干分析器。 有关如何安装的详细信息,请查看http://www.nltk.org < < < > > >
pip install nltk
- numpy :一些数据文件存储为numpy数组。本遗嘱 未来版本的更改,但目前要求numpy
pip install numpy
- gcc :在Mac OS X上,您需要安装最新版本的 使用命令行工具与您的os x版本兼容的xcode 软件包( https://developer.apple.com/xcode/ )。记住你 可能需要在xcode中启用命令行工具才能 使用gcc编译器。如果不能在之后从命令行运行gcc 安装xcode,转到xcode首选项/下载选项卡 选择"命令行工具"旁边的"安装"按钮。