Python中文
首页
教程
问答
标签
搜索
登录
注册
PDFminer给出奇怪的字母
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我使用python2.7和PDFminer从pdf中提取文本。我注意到,有时候PDFminer会给我一些带有奇怪字母的单词,但是pdf查看器没有。另外,对于某些pdf文档,PDFminer返回的结果与其他pdf查看器相同(奇怪),但是有些文档中pdf查看器可以识别文本(复制粘贴)。以下是返回值的示例:</p> <p>从pdf格式的浏览者:ف; ; ; ; ;ب 157; 157;يي160;;1590;; 15157;1604;;;\158; 1583;ج\ \160;\1604;مجمـــد 来自PDFMiner:o<code>ªéªdG êÉ````LódGh ¢†``«ÑdG OGô``«à°SG ÜÉ</code>H``a</p> <p>所以我的问题是我能得到和pdf阅读器一样的结果吗?PDFminer有什么问题吗。我不知道它是否缺少编码。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>是的。在</p> <p>如果使用了自定义字体编码,例如identity-H、identity-V等,但字体没有正确嵌入,就会发生这种情况。在</p> <p>在这种情况下,pdfminer会给出垃圾输出,因为需要编码来解释文本</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
在python3中使用Scipy pearsonr函数
9 回答
在Python3中使用scipy对多个lorentzian进行数据拟合
2 回答
在Python3中使用Script=argv
2 回答
在python3中使用selenium webdriver进行未解析的回溯
5 回答
在python3中使用selenium和phantomjs的网页截图之前如何等待?
5 回答
在Python3中使用Selenium和Requests模块从网页获取文件
10 回答
在python3中使用SIGINT终止函数
2 回答
在Python3中使用SIGTERM时,允许进程完成而不是中断
2 回答
在python3中使用smtplib发送XML内容
4 回答
在python3中使用socket库(RFCOMM模式)重新连接蓝牙设备?
9 回答
在python3中使用sounddevice和numpy编写wav文件
7 回答
在python3中使用Sqlalchemy插入MySQL查找类型错误的原因
8 回答
在python3中使用sqlite、pandas和sqlalchemy很难让rollback工作
1 回答
在python3中使用SQLite的FTS3/4
2 回答
在Python3中使用struct.calcsize()和len()有区别吗?
6 回答
在python3中使用substring函数时发生TypeError
3 回答
在Python3中使用Tkinter entry小部件写入串行设备
2 回答
在python3中使用tkinter时,如何在每次按下函数时获得运行该函数的按钮?
2 回答
在python3中使用tkinter的子帧
2 回答
在Python3中使用tryexcept块时,如何避免使用未初始化的变量?
5 回答