用于处理和操作warc文件(和http内容)的命令行工具和库

warctools的Python项目详细描述


依赖项
setuptools
unittest2
python 2.6


warc valid.py
如果参数都是有效的arc/warc文件,则返回0
non zero on error

warcdump.py-编写warc files的可读摘要:
用法:python warcdump.py foo.warc foo.warc.gz
当传递文件名时自动检测输入格式,即recordgzip与纯文本,warc vs arc

如果没有参数,则假定stdin上有未压缩的warc

python warcfilter.py pattern file file
搜索所有头文件中的regex pattern
使用-i反转搜索
使用-u约束到url
使用-t约束到记录类型
使用-c约束到内容类型

autodetects和stdin-like warcdump


默认打印warc格式。

python warc2warc<;input files>;


autodetects压缩文件
args,如果没有则假定为未压缩的stdin

使用-z写入压缩输出

i.e warc2warc-z input>;input.gz


应忽略输入中的错误记录

在输入时从arc文件创建一个糟糕的warc文件
保留一些头
使用-z写入压缩输出
i.e arc2warc-z input.arc>;input.warc.gz

弹出如下索引:
warc filename offset warc type warc subject uri warc record id content type content length
warccrap/mywarc.warc 1196018 request/images/slides/hanzo markm_uwwoh.pdf<;urn:uuid:fd1255a8-d07c-11df-b125-12313b0a18c6>;应用程序/http;msgtype=request 193
warccrap/mywarc.warc 1196631响应http://www.hanzoarchives.com/images/slides/hanzo_u markm_uwwoh.pdf<;urn:uuid:fd2614f8-d07c-11df-b125-12313b0a18c6>;应用程序/http;msgtype=response 3279474
不太好,但是一个开始

注意:

作为转换头的开始

严格的空白,必需的头检查…
mime引用的可打印头编码
将头视为utf8


还有很多事情要做(没有顺序):
更多测试。
支持1.0以前的warc文件
添加更多文档
支持输出和文件名的更多命令行选项
s3url


--tefthomas.figg@hanzoarchives.com

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JUnit抛出java。com的lang.NoSuchMethodError。谷歌。常见的收集无法忍受。尝试发现   java如何使用PreparedStatement在Oracle中的嵌套表中插入行   java如何编辑json列表?   java AWT机器人类构造函数错误   java在另一个类的UI线程上运行   java拦截对邮件程序操作的调用   java Apache tomcat web应用程序   同步化块。僵局JAVA   如何使用java在数组中输入   JavaSwing:表格单元渲染器创建无限循环   固定高度java嵌套垂直循环视图(滚动问题)   java扫描程序没有扫描所有字段?   java SimpleXoPlayer配置问题   C#相当于Java的数组。fill()方法   将具有return语句的Java普通for循环转换为Java8 IntStream   反射Java类能否在运行时向自身添加方法?   Java Web浏览器连接问题   java如何将信息从对话框发送到电子邮件