又一个pdf ocr工具

yapot的Python项目详细描述


yapot
=


又一个PDF OCR工具




这是一个库(工具),通过为您做大量的艰苦工作,使PDF-gt;文本尽可能简单!

您需要ImageMagick、Tesseract和QPDF才能使用yapot。

Ubuntu
----
>;sudo apt get install ImageMagick libmagickcore dev
>;sudo apt get install Tesseract ocr
>;sudo apt get install QPDF

要使用yapot,请执行以下操作:

>;pip install yapot

然后一些代码:



就这么简单!

您可以做的一些更高级的事情是设置分辨率、页面描述,并告诉yapot不要删除临时文件(这在调试讨厌的pdf文件时非常有用)。

success,pdf_text=yapot.convert_document(
pdf_file name=pdf#pdf文件的名称
resolution=200#图像dpi分辨率
delete_files=true,delete temporary files
页面描述='\n-------\n',页面定义文本
详细信息=false,输出详细信息
临时目录=str(uuid.uuid4()),#用于放置缩略图的临时目录的位置thumb_prefix=缩略图的“thumb_page”前缀

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为什么只为字符数组重载println方法,而不为字符串、整数等其他数组重载?   java将快速线程返回到池中,而不是等待慢速线程   创建jar文件时java SwingWorker不工作   java如何将依赖注入RabbitListener   java如何在gradle任务中通过scp复制目录?   java在MySql数据库中创建表时,遇到NullPointerException   java HTTP Status 500 Servlet执行引发异常   在JAVA中对arraylist使用继承时出错   java PowerMockito未完成存根异常   如果没有错误/警告增加到某个极限,java是否停止在eclipse中构建项目或使用maven?   java Robolectric如何测试DateFormat。getBestDateTimePattern()   google云平台GCP数据存储Java API,构建一个空值实体   VerifyListener和FocusListener之间的java冲突   安卓是否可以在Java中的另一个方法内部强制调用一个方法?   JavaWindows7、JDK1.8、SpringBoot应用程序JAR在方法安全性方面占用了大量时间。getProviders()返回   Bean提供程序的java错误消息   java Slick动画每帧必须有一个持续时间   java无法在Trie中设置isLeaf标志   java为什么JVM不能创建包含main方法的类的对象,以便从该类访问main方法,如果它具有该类的名称?   java Apache Camel+CXF端点身份验证