Python convertextract包_程序模块 - PyPI

Microsoft Office文档上的任意音译

convertextract的Python项目详细描述

转换提取

===

基于任意对应关系提取和查找/替换文本。这个库是dean malmgren的textract库的分叉。https://github.com/deanmalmgren/textract

文档

安装

要安装，必须安装Python3.4+和PIP。

pip install convertextract

为了支持不同的文件格式，需要为不同的操作系统安装一些源库。有关文档，请访问http://textract.readthedocs.org/en/latest/installation.html。

===

基本的cli使用

保留了一些基本的textract函数。有关文档，请访问http://textract.readthedocs.org。

基于xlsx转换文件

ConvertExtract需要两个参数：

包含要转换的文本的文件（从1.0.4版起，这包括.pptx、.docx、.xlsx和.txt）
包含查找/替换对应关系的.xlsx文件。从2.0.1版起，您还可以使用.csv文件，或直接将一系列对应项（如python dict）馈送到process或process_text

运行命令：

convertextract path/to/foo.docx -l path/to/bar.xlsx

将生成一个新文件path/to/foo_converted.docx，其中包含与path/to/foo.docx相同的内容，但对path/to/bar.xlsx中列出的所有对应项执行查找/替换。

创建.xlsx对应表
您的通信表必须设置如下：
in out
aa å
oe ø
ae æ
在这里，此对应表（不包括诸如“替换为”或“查找”之类的标题）将分别用_、_或_替换给定文件中a a、oe或ae的所有实例。

in	out
aa	å
oe	ø
ae	æ

支持的转换

从2.0版起，支持以下转换：

Heiltsuk Doulos字体->；Unicode

convertextract path/to/foo.docx -l hei -t Doulos

Heiltsuk Times字体->；Unicode

convertextract path/to/foo.docx -l hei -t Times

双字体tsilhqot'->；Unicode

convertextract path/to/foo.docx -l clc -t Doulos

纳瓦霍时代字体->；Unicode

convertextract path/to/foo.docx -l nav -t Times

使用正则表达式
从版本1.5开始，支持正则表达式。如果不需要使用上下文相关转换，则不需要包含它们。但是，如果您这样做了，您应该按如下方式设置通信表：
in out context_before context_after
aa å [k,d] $
aa æ t $
aa a:
有关如何准确处理g2p的更多信息，请访问https://github.com/roedoejet/g2p。

in	out	context_before	context_after
aa	å	[k,d]	$
aa	æ	t	$
aa	a:

用作python包

可以在python脚本中使用该包，该脚本返回转换后的文本，但不带格式。运行脚本仍将创建一个foo_converted.docx文件。

importconvertextracttext=convertextract.process('foo.docx',language='bar.xlsx')

您还可以使用convertextract使用process_text在python中转换文本。

importconvertextracttext=convertextract.process_text('test',language=[{'in':'t','out':'p','context_before':'^','context_after':'e'}])

欢迎加入QQ群-->： 979659372

convertextract 2.5.0

convertextract的Python项目详细描述

转换提取

文档

安装

基本的cli使用

创建.xlsx对应表
您的通信表必须设置如下：
in out
aa å
oe ø
ae æ
在这里，此对应表（不包括诸如“替换为”或“查找”之类的标题）将分别用_、_或_替换给定文件中a a、oe或ae的所有实例。

支持的转换

用作python包

推荐PyPI第三方库

odoo12-addon-stock-pull-list

urlp

hipims

sphinx-paw

Autogit

firebird-driver

mapargs

parakht

service-runner

gsc

toastcord

sqlight

duplicates

evalp

structlog-extensions-nralbers

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

convertextract 2.5.0

convertextract的Python项目详细描述

转换提取

文档

安装

基本的cli使用

创建.xlsx对应表 您的通信表必须设置如下：inoutaaåoeøaeæ在这里，此对应表（不包括诸如“替换为”或“查找”之类的标题）将分别用_、_或_替换给定文件中a a、oe或ae的所有实例。

支持的转换

用作python包

推荐PyPI第三方库

odoo12-addon-stock-pull-list

urlp

hipims

sphinx-paw

Autogit

firebird-driver

mapargs

parakht

service-runner

gsc

toastcord

sqlight

duplicates

evalp

structlog-extensions-nralbers

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

创建.xlsx对应表
您的通信表必须设置如下：
in out
aa å
oe ø
ae æ
在这里，此对应表（不包括诸如“替换为”或“查找”之类的标题）将分别用_、_或_替换给定文件中a a、oe或ae的所有实例。

导航栏

项目链接

标签