2024-06-28 20:04:33 发布
网友
{pd1.5使用Python从Python中提取1.5文档。 我在打印文本的中间获得了许多我不需要的unicode字符:
\xc5 \xef \x82 \xef \xac \n.
你能帮我摆脱这些讨厌的角色吗?!谢谢你的帮助! 下面是我的简短代码:
您可以用ASCII编码text,而忽略非ASCII字符。在
text
尝试更改:
text=pageObj.extractText().encode('utf-8')
收件人:
text=pageObj.extractText().encode('ascii', 'ignore')
我浏览了一下输出结果,它似乎做到了。在
在另一个单独的点上,range循环中的range会导致您错过一些输出(除非这是有意的)。在
range
将for a in range(1,num):更改为for a in range(0,num):
for a in range(1,num):
for a in range(0,num):
您可以用ASCII编码
text
,而忽略非ASCII字符。在尝试更改:
text=pageObj.extractText().encode('utf-8')
收件人:
text=pageObj.extractText().encode('ascii', 'ignore')
我浏览了一下输出结果,它似乎做到了。在
在另一个单独的点上,
range
循环中的range
会导致您错过一些输出(除非这是有意的)。在将
for a in range(1,num):
更改为for a in range(0,num):
相关问题 更多 >
编程相关推荐