一个建立在nltk之上的信息抽取工具包。

bluestocking的Python项目详细描述


一个信息提取工具包。

要讨论使用的项目,请加入我们的维护列表: http://groups.google.com/forum/?fromgroups#!forum/bluestocking-dev

这个项目依赖于nltk。在运行这些脚本之前,您需要安装它。

运行测试:

python tests.py

要运行factchecker演示,请尝试以下操作:

python factchecker.py “The sky is not blue.”

或者这个:

python factchecker.py “People never eat fish. Goldfish are unpopular.”

这个测试是针对简单英语维基百科的一个文档 作为参数传递的字符串中每个单词的项目。

(警告:句子较长的文档查询时间较长)

包括脚本:

###parse.py

定义用于包装原始文本和解析器的文档类 类从文档中提取关系。

文档有一种将它们转换为doxament的方法(见下文)。

###doxament.py

定义doxament类。一个doxament包含许多关系。 可以查询一个doxament与另一个doxament的一致性。它们也可以合并起来形成一个更完整的知识库。

关系包含语义意义的词汇 共同犯罪。

###其他

wikipedia.py和wiki2plain.py来自 http://stackoverflow.com/questions/4460921/extract-the-first-paragraph-from-a-wikipedia-article-python

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在sqlite数据库中保存特定列的历史记录   java如何更改/更新timeseriechart名称(JFreeChart)   java如何将整数转换为可绘制的   汇编什么解释Java的字节码   java查找已编译的类版本号   我应该什么时候在ColdFusion应用程序中使用Java?   java当一个实体的两个字段为(unique=true)时,如何处理JPA异常?   java为什么在所有其他实例都正确的情况下返回错误的布尔值?   java Hibernate每次都准备语句   java停留在平均字长上   对Java和日语字符进行编码   java如何将导致异常的方法的错误消息传递给侦听器中的onTestFailure方法   java代码没有打印结果   java为什么私有内部接口的方法必须是公共的?   休眠发生错误。有关详细信息,请参阅错误日志。JAVAlang.NullPointerException