用于构建streamcorpus对象的工具,如trec中使用的工具。

streamcorpus_pipeline的Python项目详细描述


streamcorpus管道是一个文档处理管道,用于汇编 来自原始数据集的streamcorpus对象。

streamcorpus_pipeline python模块包含用于处理的工具 streamcorpus.streamitem对象存储在块中。它包括 转换函数,用于获取clean_html、clean_visible、创建 从超链接到特定站点(如维基百科)的标签,以及 像lingpipe、serif和factorie这样的标记符,它们生成标记和 句子。

更多信息请访问[streamcorpus.org](http://streamcorpus.org/

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用ApachePOI将excel文件导入postgreSQL表   java多线程从iText pdf提取文本   winapi Java和SetWindowDisplayAffinity   eclipse juno的java Websphere 6.1插件   java MPAndroidChart:为Y轴提供一些偏移   java中作为参数传递枚举类型的继承   java Gui jframe的工作原理与netbeans不同   使用Bouncy Castle和PDFBox在Java中验证PDF签名   优化缩小Java代码   java无法在安卓中从Firebase取回子数据   返回的java方法?我应该什么时候用?   java错误处理已完成,退出代码为1。与穿过阵列的for循环有关   多线程Java volatile是否阻止缓存或强制执行写缓存?   java Multi-collectItems如何提前终止并返回已收集的项目   java为什么不在服务(请求,响应)中直接调用processRequest(请求,响应)?   java如何从字符串生成int数组?   打印获取用户输入的值并在其他预选文本中显示。JAVA   未显示java DynamicAsper UTF8字符   java Eclipse RCP:不启动应用程序的命令行参数