擅长:python、mysql、java
<p>你看到的只是PDF文件的原始字节,事实上他们已经把“Info dict”放在文件的顶部,因此看到像<code>\Creator</code>这样的字符串是不能保证的,因为它是一个“线性化”文件</p>
<p>像Daniel建议的那样做是可行的,但是他的实现可能会引入额外的工件。tesseract是OCR软件,它试图将光栅化文本转换回字符。直接处理PDF文件中的图像可能更好,而不是将整个页面光栅化为图像。另外,编码成JPEG似乎也很尴尬,使用像PNG这样的无损格式可能会稍微好一点</p>
<p>一般来说,我建议使用pytesseract之类的工具,但是使用其他工具,例如<a href="https://stackoverflow.com/q/2693820/1358308">see here</a>直接获取图像</p>