维基百科提取器去除文本中的标题

2024-09-28 03:18:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用WikiExtractor将XML转储文件提取到JSON文件中,以便进一步预处理数据。我的问题是标题总是正文的一部分

以下是一个例子:

"Alan Smithee\n\nAlan Smithee steht als Pseudonym (...)"
"Actinium\n\nActinium ist ein radioaktives chemisches Element (...)"
"Aussagenlogik\n\nDie Aussagenlogik ist ein Teilgebiet der (...)" 

我如何去掉课文中的标题


Tags: 文件数据json标题xml例子alanals
1条回答
网友
1楼 · 发布于 2024-09-28 03:18:00

您可以在'\n\n'处拆分文本一次,然后取最后一部分:

texts = ["Alan Smithee\n\nAlan Smithee steht als Pseudonym (...)",
        "Actinium\n\nActinium ist ein radioaktives chemisches Element (...)",
        "Aussagenlogik\n\nDie Aussagenlogik ist ein Teilgebiet der (...)",
        "No split text here" ]

# split once and take the last part of it as result into your cleaned list
cleaned = [i.split("\n\n", 1)[-1] for i in texts]

print(cleaned)

输出:

['Alan Smithee steht als Pseudonym (...)', 
 'Actinium ist ein radioaktives chemisches Element (...)', 
 'Die Aussagenlogik ist ein Teilgebiet der (...)', 
 'No split text here']

请参见str.split(sep=None, maxsplit=-1)-提供1的maxslit,以仅拆分一次,并将所有剩余部分作为结果

相关问题 更多 >

    热门问题