又一个pdf ocr工具
yapot的Python项目详细描述
yapot
=
又一个PDF OCR工具
这是一个库(工具),通过为您做大量的艰苦工作,使PDF-gt;文本尽可能简单!
您需要ImageMagick、Tesseract和QPDF才能使用yapot。
Ubuntu
----
>;sudo apt get install ImageMagick libmagickcore dev
>;sudo apt get install Tesseract ocr
>;sudo apt get install QPDF
要使用yapot,请执行以下操作:
>;pip install yapot
然后一些代码:
就这么简单!
您可以做的一些更高级的事情是设置分辨率、页面描述,并告诉yapot不要删除临时文件(这在调试讨厌的pdf文件时非常有用)。
success,pdf_text=yapot.convert_document(
pdf_file name=pdf#pdf文件的名称
resolution=200#图像dpi分辨率
delete_files=true,delete temporary files
页面描述='\n-------\n',页面定义文本
详细信息=false,输出详细信息
临时目录=str(uuid.uuid4()),#用于放置缩略图的临时目录的位置thumb_prefix=缩略图的“thumb_page”前缀
)
=
又一个PDF OCR工具
这是一个库(工具),通过为您做大量的艰苦工作,使PDF-gt;文本尽可能简单!
您需要ImageMagick、Tesseract和QPDF才能使用yapot。
Ubuntu
----
>;sudo apt get install ImageMagick libmagickcore dev
>;sudo apt get install Tesseract ocr
>;sudo apt get install QPDF
要使用yapot,请执行以下操作:
>;pip install yapot
然后一些代码:
就这么简单!
您可以做的一些更高级的事情是设置分辨率、页面描述,并告诉yapot不要删除临时文件(这在调试讨厌的pdf文件时非常有用)。
success,pdf_text=yapot.convert_document(
pdf_file name=pdf#pdf文件的名称
resolution=200#图像dpi分辨率
delete_files=true,delete temporary files
页面描述='\n-------\n',页面定义文本
详细信息=false,输出详细信息
临时目录=str(uuid.uuid4()),#用于放置缩略图的临时目录的位置thumb_prefix=缩略图的“thumb_page”前缀
)