擅长:python、mysql、java
<p>dictd将其.index和.dict[.dz]的格式视为<em>私有</em>,以保留将来更改它的权利。在</p>
<p>如果您想直接处理它,索引包含<em>标题词</em>,而.dict[.dz]包含<em>定义</em>。它可以选择使用一个特殊的修改过的gzip算法进行压缩,gzip通常不提供随机访问。索引每行包含3列,用制表符分隔:</p>
<ol>
<li>查找定义的标题词。在</li>
<li>.dict[.dz]文件中定义的绝对字节位置,base64编码。在</li>
<li>定义的长度(字节),base64编码。在</li>
</ol>
<p>如需了解更多详细信息,请参阅<a href="https://linux.die.net/man/8/dictd" rel="nofollow noreferrer">dict(8) man page</a>(部分<strong>数据库格式</strong>),您应该在提出问题之前在研究中找到。为了正确处理标题词,您必须考虑编码和字符排序。在</p>
<p>最终,最好使用现有的库来读取dictd数据库。但这实际上取决于图书馆是否好(这里没有经验)。在</p>
<p>最后,正如您自己所指出的,XML是为了方便处理而制作的。您可以使用<a href="https://www.w3.org/TR/xpath/" rel="nofollow noreferrer">XPath</a>提取标题词和翻译,省去所有语法内容,也无需费心解析任何内容。在</p>
<p>在走到这一步之后,下一个问题是不同语言的单词之间没有一对一的映射。。。在</p>