重新索引层次索引datafram的子级

2024-10-03 13:27:22 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个分层索引框架。”“句子id”是“单词id”的父索引，“单词id”是指句子中单词的索引

>>> df
                     pos        word
sentence_id word_id                 
1           2        NNP         Red
            3         NN        List
            4         IN          of
            5        NNP  Threatened
            6        NNP     Species

在每个句子中，单词_id应该是连续的整数0,1,2,3，。。。但事实并非如此，因为有些词是从句子中删掉的。如何使用df.reindex重新索引每个句子中的子索引“word\u id”，而不修改“句子id”？ i、 e.上面的数据框如何变成：

>>> df
                     pos        word
sentence_id word_id                 
1           0        NNP         Red
            1         NN        List
            2         IN          of
            3        NNP  Threatened
            4        NNP     Species

我尝试的是：我尝试了df.reindex（），但是“word\u id”没有任何变化

>>> df.reindex()
                     pos        word
sentence_id word_id                 
1           2        NNP         Red
            3         NN        List
            4         IN          of
            5        NNP  Threatened
            6        NNP     Species

Tags： of in pos id df red nn 单词

1条回答

网友

1楼 · 发布于 2024-10-03 13:27:22

为索引级别为0的每组创建具有计数的新列，并替换索引级别1

df = df.reset_index(level=1, drop=True)
df['word_id'] = df.groupby(level='sentence_id').cumcount()
df.set_index('word_id', append=True)

                     pos        word
sentence_id word_id                 
1           0        NNP         Red
            1         NN        List
            2         IN          of
            3        NNP  Threatened
            4        NNP     Species

重新索引层次索引datafram的子级

相关问题更多 >

编程相关推荐

热门问题

热门文章

重新索引层次索引datafram的子级

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >