Python3:无法从已解析的文件中拆分单词

2024-09-30 05:31:26 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在创建一个MapReduce作业，以便从XML文件中查找“articletTitle”。我正在使用mapper.py来识别标签并根据字母将其拆分。脚本如下：

tree = ET.parse('File location')
doc = tree.getroot()
for ArticleTitle in doc.iter('ArticleTitle'):
    file1 = (ET.tostring(ArticleTitle, encoding='utf8').decode('utf8'))
    filename = file1[52:(len(file1))]
    Article_Title= filename.split("<")[0]
    # print(Article_Title)
    for line in Article_Title:
        line_1= re.findall(r"\w+|[^\w\s]", line, re.UNICODE)
        print(line_1)

我得到的结果是：

['T']['h']['e'][]['e']['f']['f']['e']['c']['t'][]['o']['f']

但是，我希望输出为：

['The', 'effect', 'of', 'Hene', 'laser']

Tags： in re tree for doc title line article

1条回答

网友

1楼 · 发布于 2024-09-30 05:31:26

Article Title是一个字符串。请参见：

Article_Title= filename.split("<")[0]

如果在字符串中循环，则返回单个字符

for i in "hello!":
    print(i)

>>>>h
>>>>e
>>>>l
>>>>l
>>>>o
>>>>!

如果你想要完整的单词，你不需要循环-只要做Article_Title.split()

"The effect of Hene laser"  > ['The', 'effect', 'of', 'Hene', 'laser']

Python3:无法从已解析的文件中拆分单词

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python3:无法从已解析的文件中拆分单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >