在Python中删除空格和不可打印字符

2024-09-30 06:11:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用lxml etreexpath方法处理xml文件。我的代码是

from lxml import etree
File="c:\file.xml"
doc=etree.parse(File)
alltext = doc.xpath('descendant-or-self::text()')
clump = "".join(alltext)
clump

我得到以下输出:

^{pr2}$

我想从输出中删除空格和所有制表符,因此我使用另一个代码,但未能获得所需的输出
这是代码

import string
filter(lambda x: x in string.printable, clump)

我只想从输出中得到文本,这是“简介,可访问性,打开电子书”


Tags: 文件方法代码fromimportstringdocxml
2条回答

你可以试试这个:

''.join(clump.split())

希望,那能解决问题!为了改善这一点,你可以使用re,我使用Sabuj的代码:

^{pr2}$

如果您不介意使用regex来执行此操作:

import re
clump = re.sub(r'[\n\t]+', ' ', clump)

如果要删除任何其他字符,只需将这些字符放入[]

相关问题 更多 >

    热门问题