将Edit字典格式转换为CSV。
edict-to-csv的Python项目详细描述
Edit to CSV是一组用于转换Edit的小型命令行实用程序 将词典转换为分隔文本(CSV)。与许多unix命令一样,这些命令 程序只需读取标准输入并写入标准输出。 提供两个程序:
- CEDICT到CSV(1)
- edict1到csv(1)
edict1到csv将字典条目从使用的原始edict1格式转换为 通过jmdict/edict项目。它不处理edict2格式或随后的 基于XML的格式。
cedict to csv将词典条目从cedict项目转换为 CC-CEDICT公司。要使用此程序,必须安装“拼音DEC”软件。 这将重新格式化拼音条目以使用适当的变音符号。
csv条目采用以下格式:
FORM1|FORM2|TRANSLITERATION|DEFINITION
就法令而言,第二个字段总是空的。对于CEDICT,第二个 字段包含简体中文形式。
所包含的程序是作为unix风格的命令行实用程序编写的。这个 程序模块也可以通过python完全访问,所以所有的程序 其他程序可以很容易地调用函数。程序是用 python 3和将在mit许可下提供。
示例用法
您可以这样转换日语法令词典:
$ cat edict.utf8 | edict1-to-csv > edict.csv
如果它是压缩的并且是euc-jp编码,您可能需要将其转换:
$ zcat edict.gz | iconv -f EUC-JP -t UTF-8 | edict1-to-csv > edict.csv
您可以这样转换cc-cedict:
$ cat cedict.txt | cedict-to-csv > cedict.csv
如果您尝试在不安装拼音DEC的情况下使用此程序,您将看到:
$ cat cedict.txt | cedict-to-csv > cedict.csv cedict-to-csv: pinyin_dec not available!
安装
您可以使用setup.py以旧方式安装此软件:
# python3 setup.py install
或者如果你安装了pip,那是更好的方法。
文档
此软件包括Unix手册页,这些手册页与程序一起安装 文件夹。通过键入“man cedict to csv”或“man edict1 to csv”,您可以查看 这里包括每个程序的文档。