将大型数据集组织成单独的行

2024-06-25 05:26:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个大的原始数据集,我想组织成单独的行。数据被分隔。我想组织,所以有8个分隔符在一行后面的位置,然后新行。你知道吗

原始数据:

468 | 2016-06-17 | |移动|响应|运动|体育.足球.英格兰||伦敦468 | 2016-06-16 | |移动|响应|运动|体育、足球、欧洲||约克郡和亨伯468 | 2016-06-18 |移动|响应|运动|体育.足球.英格兰||伦敦

期望输出:

468 | 2016-06-17 | |移动|响应|运动|体育.足球.英格兰||伦敦

468 | 2016-06-16 | |移动|响应|运动|体育、足球、欧洲||约克郡和亨伯

468 | 2016-06-18 | |移动|响应|运动|体育.足球.英格兰||伦敦

在akash karothiya的帮助下,我现在有了这个

data = open("raw_data.txt", "r")
new = []
for i in data.read().split(' '):
    if '|' in i:
        new.append(i)
    else:
        new.append(str(new[-1]) + ' ' + i )
        new.remove(new[-2])
print(new)

但这会导致打印\n而不是新行,为什么?在这个例子中,约克郡和亨伯应该在一行的末尾:

['468 | 2016-06-17 | |移动|响应|运动|体育、足球、国际.英格兰故事.36558237.第| |页伦敦\n468 | 2016-07-03 | |移动|响应|运动|体育、足球、欧洲足球锦标赛.2016.媒体|资产.36695497.第| |页伦敦\n06b | 2016-06-21 | |计算机|响应|新闻|新闻.page|新闻|约克郡和',“亨伯”\n468 | 2016-06-18 | |移动|响应|运动|体育、足球、国际.英格兰故事.36558237.第| |伦敦']


Tags: 数据innewdata原始数据open新闻国际
1条回答
网友
1楼 · 发布于 2024-06-25 05:26:26

你可以试试这个:

data = '''468|2016-06-17||Mobile|responsive|sport|sport.football.england||london 468|2016-06-16||Mobile|responsive|sport|sport.football.european||west midlands 468|2016-06-17||Mobile|responsive|sport|sport.football.england||india'''

new = []
for i in data.split(' '):
    if '|' in i:
        new.append(i)
    else:
        new.append(str(new[-1]) + ' ' + i )
        new.remove(new[-2])
print(new)

['468|2016-06-17||Mobile|responsive|sport|sport.football.england||london',
 '468|2016-06-16||Mobile|responsive|sport|sport.football.european||west midlands',
 '468|2016-06-17||Mobile|responsive|sport|sport.football.england||india']

相关问题 更多 >