pdf解析器和分析器
yapdfminer的Python项目详细描述
yapdfminer(又一个pdfminer分叉)
pdfminer是一个很好的python工具,它显然已经被它的原始作者抛弃了。 Yusuke Shinyama2016年。 从那以后,它一次又一次地被叉起来,但从来没有被长时间地保持过。
目标
我创建这个fork是为了更好地满足pdf分析中我自己项目的需求:
- 应用在原始存储库上的多个请求,即解决了我遇到的一些错误。
- 目标python 3.7。 不会试图保持与旧版本python的向后兼容性。
- 生成一个更小的分发包(我在aws lambda上运行,其中ram是一个高级的)。 代价是放弃对中文、日文和韩文的支持。
如果您需要亚洲语言支持,它应该足够简单,可以通过构建资源来重新启用它
cmaprsrc
中的文件。
除了上面提到的问题之外,我还努力使这个库与原来的pdfminer兼容, 例如包括包名(pdfminer3已更改)。
沿袭:
- 这是gwk/pdfminer3的叉子。
- gwk/pdfminer3是从pdfminer/pdfminer.six
- pdfminer.6是从原始的pdfminer
关于
pdfminer是从pdf文档中提取信息的纯python工具。
它的重点是pdf内容的检索和分析。
有关详细信息,请参阅原始回购协议:https://github.com/euske