Python从pd打印/提取文本时不需要的Unicode字符 - 问答 - Python中文网

Python从pd打印/提取文本时不需要的Unicode字符

2024-06-28 20:04:33 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

{pd1.5使用Python从Python中提取1.5文档。我在打印文本的中间获得了许多我不需要的unicode字符：

\xc5 \xef \x82 \xef \xac \n.

你能帮我摆脱这些讨厌的角色吗？！谢谢你的帮助！下面是我的简短代码：

^{pr2}$

Tags：代码文档文本角色 unicode 字符 x82 pr2

1条回答

网友

1楼 · 发布于 2024-06-28 20:04:33

您可以用ASCII编码text，而忽略非ASCII字符。在

尝试更改：

text=pageObj.extractText().encode('utf-8')

收件人：

text=pageObj.extractText().encode('ascii', 'ignore')

我浏览了一下输出结果，它似乎做到了。在

在另一个单独的点上，range循环中的range会导致您错过一些输出（除非这是有意的）。在

将for a in range(1,num):更改为for a in range(0,num):

相关问题更多 >

编程相关推荐

热门问题

热门文章