可搜索的pdf到文本/pdf,其中印地语字体与字形正确映射

2024-10-01 00:34:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个可搜索的pdf[language:hindi]示例:https://www.ceorajasthan.nic.in/erolls/pdf/dper-18/A151/A151001.pdf。你知道吗

我有字体文件下载链接(http://ceorajasthan.nic.in/erolls/pdf/Forms/mfdev010.ttf

我想整合这个字体,如果字形被破坏,我想正确地映射它。你知道吗

我成功地得到了glyph文件,它有如下行:

你知道吗(Abc.glf公司) 131 | 0xc1 | Aacute | 00c1 | 400b0234121005002502120526002b35012b35 |

pdf是有devnagri脚本,我不能进行任何进一步的改进。任何帮助都会有帮助。你知道吗

我使用的语言是python2.7


Tags: 文件inhttps示例pdfwww字体language