我正在尝试创建一个计算pptx
文档中单词数的函数。问题是我不知道怎样才能找到这种标签:
<a:t>Some Text</a:t>
当我试图:print xmlTree.findall('.//a:t')
时,它返回
SyntaxError: prefix 'a' not found in prefix map
你知道怎么做才能成功吗?
这是函数:
def get_pptx_word_count(filename):
import xml.etree.ElementTree as ET
import zipfile
z = zipfile.ZipFile(filename)
i=0
wordcount = 0
while True:
i+=1
slidename = 'slide{}.xml'.format(i)
try:
slide = z.read("ppt/slides/{}".format(slidename))
except KeyError:
break
xmlTree = ET.fromstring(slide)
for elem in xmlTree.iter():
if elem.tag=='a:t':
#text = elem.getText
#num = len(text.split(' '))
#wordcount+=num
您需要告诉
ElementTree
有关XML命名空间的信息。参考文献:
相关问题 更多 >
编程相关推荐