维基百科提取器去除文本中的标题 - 问答 - Python中文网

维基百科提取器去除文本中的标题

2024-09-28 03:18:00 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我使用WikiExtractor将XML转储文件提取到JSON文件中，以便进一步预处理数据。我的问题是标题总是正文的一部分

以下是一个例子：

"Alan Smithee\n\nAlan Smithee steht als Pseudonym (...)"
"Actinium\n\nActinium ist ein radioaktives chemisches Element (...)"
"Aussagenlogik\n\nDie Aussagenlogik ist ein Teilgebiet der (...)"

我如何去掉课文中的标题

Tags：文件数据 json 标题 xml 例子 alan als

1条回答

网友

1楼 · 发布于 2024-09-28 03:18:00

您可以在'\n\n'处拆分文本一次，然后取最后一部分：

texts = ["Alan Smithee\n\nAlan Smithee steht als Pseudonym (...)",
        "Actinium\n\nActinium ist ein radioaktives chemisches Element (...)",
        "Aussagenlogik\n\nDie Aussagenlogik ist ein Teilgebiet der (...)",
        "No split text here" ]

# split once and take the last part of it as result into your cleaned list
cleaned = [i.split("\n\n", 1)[-1] for i in texts]

print(cleaned)

输出：

['Alan Smithee steht als Pseudonym (...)', 
 'Actinium ist ein radioaktives chemisches Element (...)', 
 'Die Aussagenlogik ist ein Teilgebiet der (...)', 
 'No split text here']

请参见str.split(sep=None, maxsplit=-1)-提供1的maxslit，以仅拆分一次，并将所有剩余部分作为结果

相关问题更多 >

编程相关推荐

热门问题

热门文章