计算在另一个文件2中找到的来自文件1的n元组的百分比

PlagiarismDetector的Python项目详细描述


计算在另一个文件2中找到的来自文件1的n元组的百分比:

from plagiarismdetector.detector import Detector

print Detector.detect(synonyms_file_path,
                       eval_file_path,
                       source_file_path,
                       n_tuples_value=3)

运行

python plagiarismdetector/main.py synonyms_file_path eval_file_path source_file_path 3

假设和概述

  • 取决于python2.7
  • 标记器仅适用于使用penn treebank标记器的英语文本,原因是它根据英语中可能在其他语言(如印地语)中失败的结构划分字符串,因为句子分隔符和标点符号完全不同。
  • 模块被优化为尽可能快,一些优化是:
    • 只生成和存储文件2的n个g,生成但不存储文件1的n个元组。
    • 不在内存中保存生成的n个程序,将使用生成器
    • n-grams字典是从file2n-grams创建的,用于file1元组的恒定时间查找
    • 文件2ngram字典中的密钥包含元组的散列,而不是实际的元组,以减少空间复杂度。
    • 因为我们只关心在file2中找到的file1 n元组的百分比,所以不需要存储任何元组。因此,我们首先为file2生成n-grams,然后动态计算file1的计数,而不是生成file1的所有n元组并将其与file2的元组交叉引用。

测试

python -m unittest discover tests

帮助

python plagiarismdetector/main.py -h

位置参数

^{tt4}$Path to file to be used for synonyms
^{tt5}$Path to file to be evaluated
^{tt6}$Path to file to be used as source for matching
^{tt7}$Number of N-tuples, Optional and Defaults to 3

可选参数

-h, --helpshow this help message and exit

示例

Returns100.0
Evaluation Filego for a run
Source Filego for a jog
N-tuples3

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java静态工厂方法如何推断泛型?   Java中长整数与简单整数的比较   java无法使用JPA创建映射实体   java如何尽早停止处理JSP?   java错误:变量可能尚未初始化?   启用安全性时,WAS 855中的java Mbean调用因凭据为空而失败   java如何获取上次拆分后的最后时间间隔?   在java中删除所选图像   来自Guava EventBus订阅服务器的java抛出异常   java抑制异常作为收集多个异常的方法   java重新启动ScheduledExecutorService计划任务的正确方法是什么?   java为什么我得到org。冬眠HibernateeException:未配置CurrentSessionContext   将mouseListener添加到BuffereImage时发生java错误   java如何从<application>   java我一直收到一个错误,说“无法从int转换为Drawable”。我正在尝试将图像分配到位置。有办法解决这个问题吗?   java Android Jsoup证书问题   java Spring找不到HTTPrequest的映射