一个python模块,用于解析docx格式的microsoft word表单,并将所有字段值及其标记提取到字典中。

pywordform的Python项目详细描述


单词形式: 一个python模块,用于解析docx格式的microsoft word表单,以及 将所有字段值及其标记提取到字典中。

项目网站:http://www.decalage.info/python/pywordform

安装:

  • 在Windows上,启动install.bat
  • 在其他系统上,启动:setup.py install

如何使用本模块:

在MS Word中打开sample_form.docx并编辑字段值。

从shell中提取所有带有标记的字段:

>;python pywordform.py form.docx示例 field1=“你好,世界。” field2=“你好,” field3=“值B” field4=“2012年3月4日”

在python脚本中:

导入PywordForm fields=pywordform.parse_form('sample_form.docx') 打印字段

=>;返回由标记索引的字段值字典。

http://www.decalage.info/python/pywordform 请参阅模块末尾的主程序,以及docstrings。

许可证:

请参阅license.txt。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何设置将在类声明中使用的输入参数?   混合表达式和文本的java SpEL模板   getHeaders()无法返回java Mockito测试SimpMessageHeaderAccessor getHeaders()应返回MessageHeaders   如何在java中创建循环回菜单的方法   具有多态性的Java列表问题   java Guice多数据库自动切换   java服务器错误,状态代码:400,错误代码:100005,消息:您已超过组织的内存限制   静态mutator方法的Java命名约定   用于实例化另一个java文件的groovy java代码   javajavax。网ssl。SSLHandshakeException:握手期间远程主机关闭连接。重新启动服务器后,它工作正常,但会再次显示   java WebSphere+RAD+Taglib   REST客户端中出现java异常:找不到contenttype application/json的messagebodyreader   无参数setter的Java命名   java从数组中删除重复字符