pdf/djvu/orotherimageformat的开源项目文本回流格式化书籍到kindle或其他电子书阅读器

2024-10-01 00:31:04 发布

您现在位置:Python中文网/ 问答频道 /正文

自从我买了自己的kindle4之后,我一直在寻找能帮助我阅读科学论文或漫画的软件。到目前为止,我的搜索已经找到了k2pdfopt这些论文
Briss漫画-实际上只有漫画。
第一个链接,即k2pdfopt上的页面提到了一些非常好的软件,可以将pdf的某些部分裁剪成另一部分。请注意,k2pdfopt在与这些pdf裁剪软件(包括Briss)不同的行上运行。它将单词、方程式等识别为文本块,这些文本块以图像形式回流以适合电子阅读器。 可回流文档的维基百科页面(http://en.wikipedia.org/wiki/Reflowable_文档)提到了Xerox PARC设计的一个实验软件,其工作方式与k2pdfopt类似。
因此,我的问题是是否有一个现有的开源项目(或更多项目)以类似的方式解决问题,即在单词级别将文本识别为图像,然后使用算法对这些图像进行排版。

  • k2pdfopt生成一个exe文件-还没有用wine尝试过。
  • 虽然该软件是高度可定制的-也就是说,字间距和行间间隔可以建议给它,但没有用户界面,所有的页面都必须以同样的方式处理。因此,无法识别目录,例如,或添加适当的脚注-与一些人为干预。
  • 因此需要一个新的项目(如果这样的项目还不存在的话)。
  • 我想用python来做这个工作,但是通常的pdf相关模块ReportLab和 pyPdf不能导入现有的pdf页面。有人能帮忙搜索这样一个python模块吗?

Tags: 模块项目文档图像文本软件pdf方式