将dataframe列转换为列表列表并转换回dataframe，同时保持ID关联

1条回答

网友

1楼 · 发布于 2024-05-07 03:27:49

Pandas数据帧提供了许多快速的全面操作，但是如果数据没有被填充到数据框中，尤其是刚开始的时候，获得数据确实要容易得多。如果你要和nltk合作，我当然推荐你。要保持文本和id在一起，请将数据帧转换为元组列表。如果数据帧实际上只有两个有意义的列，可以这样做：

>>> data = list(zip(df["ID"], df["TEXT"]))
>>> from pprint import pprint
>>> pprint(data)
[(265, 'The farmer plants grain. The fisher catches tuna.'),
 (456, 'The sky is blue.'),
 (434, 'The sun is bright.'),
 (921, 'I own a phone. I own a book.')]

现在，如果你想在不丢失id的情况下处理句子，可以使用这样的双变量循环。（这将创建您请求的额外行）：

^{pr2}$

您要做什么取决于您的应用程序；您可能会创建一个包含两个元素元组的新列表。如果你只是在应用一个转换，使用列表理解。例如：

>>> datawords = [ (id, nltk.word_tokenize(t)) for id, t in data ]
>>> print(datawords[3])
(921, ['I', 'own', 'a', 'phone', '.', 'I', 'own', 'a', 'book', '.'])

将元组列表转换回数据帧非常简单：

 newdf = pd.DataFrame(datawords, columns=["INDEX", "WORDS"])

相关问题更多 >

编程相关推荐

热门问题

热门文章

将dataframe列转换为列表列表并转换回dataframe，同时保持ID关联

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >