附加要求
DocuScan的Python项目详细描述
docuscan包
docuscan是一种轻量级的文档扫描仪。
docuscan允许用户打开文档类型docx、doc、pdf并将其中的信息作为字符串返回。
docuscan还允许通过正则表达式处理这些信息。
要求:
zipfile
IO
回复
XML
安装:
运行pip install docuscan
导入文档
用法:
- 类docuscan('filename')到变量。
###值得注意的是,文件名必须在目录中。
使用print(variable.returnFileText())
使用print(variable.executegex('regex here'))
使用print(executeheaderregex('regex here'))
使用print(executefooterregex('regex here'))
功能:
returnFileText()-返回文件的文本。
executegex(regexexpression)-创建regexexpression的所有匹配案例的列表
executeHeaderRegex(regularExpression)-在头XML中创建regexExpression的所有匹配案例的列表。
executefooterregex(regularexpression)-在页脚xml中创建regexexpression的所有匹配大小写的列表。