我使用WikiExtractor将XML转储文件提取到JSON文件中,以便进一步预处理数据。我的问题是标题总是正文的一部分
以下是一个例子:
"Alan Smithee\n\nAlan Smithee steht als Pseudonym (...)"
"Actinium\n\nActinium ist ein radioaktives chemisches Element (...)"
"Aussagenlogik\n\nDie Aussagenlogik ist ein Teilgebiet der (...)"
我如何去掉课文中的标题
您可以在
'\n\n'
处拆分文本一次,然后取最后一部分:输出:
请参见str.split(sep=None, maxsplit=-1)-提供1的maxslit,以仅拆分一次,并将所有剩余部分作为结果
相关问题 更多 >
编程相关推荐