Python从pd打印/提取文本时不需要的Unicode字符

2024-06-28 20:04:33 发布

您现在位置:Python中文网/ 问答频道 /正文

{pd1.5使用Python从Python中提取1.5文档。 我在打印文本的中间获得了许多我不需要的unicode字符:

\xc5 \xef \x82 \xef \xac \n.

你能帮我摆脱这些讨厌的角色吗?!谢谢你的帮助! 下面是我的简短代码:

^{pr2}$

Tags: 代码文档文本角色unicode字符x82pr2
1条回答
网友
1楼 · 发布于 2024-06-28 20:04:33

您可以用ASCII编码text,而忽略非ASCII字符。在

尝试更改:

text=pageObj.extractText().encode('utf-8')

收件人:

text=pageObj.extractText().encode('ascii', 'ignore')

我浏览了一下输出结果,它似乎做到了。在

在另一个单独的点上,range循环中的range会导致您错过一些输出(除非这是有意的)。在

for a in range(1,num):更改为for a in range(0,num):

相关问题 更多 >