一个建立在nltk之上的信息抽取工具包。
bluestocking的Python项目详细描述
一个信息提取工具包。
要讨论使用的项目,请加入我们的维护列表: http://groups.google.com/forum/?fromgroups#!forum/bluestocking-dev
这个项目依赖于nltk。在运行这些脚本之前,您需要安装它。
运行测试:
python tests.py
要运行factchecker演示,请尝试以下操作:
python factchecker.py “The sky is not blue.”
或者这个:
python factchecker.py “People never eat fish. Goldfish are unpopular.”
这个测试是针对简单英语维基百科的一个文档 作为参数传递的字符串中每个单词的项目。
(警告:句子较长的文档查询时间较长)
包括脚本:
###parse.py
定义用于包装原始文本和解析器的文档类 类从文档中提取关系。
文档有一种将它们转换为doxament的方法(见下文)。
###doxament.py
定义doxament类。一个doxament包含许多关系。 可以查询一个doxament与另一个doxament的一致性。它们也可以合并起来形成一个更完整的知识库。
关系包含语义意义的词汇 共同犯罪。
###其他
wikipedia.py和wiki2plain.py来自 http://stackoverflow.com/questions/4460921/extract-the-first-paragraph-from-a-wikipedia-article-python