我刚刚执行了熊猫系列对象,如下所示:
0 ['str1', 'str2', 'str3', 'str4', ...]
1 ['str5', 'str6', 'str7', 'str8', ...]
2 ['str9', 'str10', 'abcde.fghi', 'str12', ...]
.
.
.
在这里,我想保留格式,并像'abcde.fghi'带分隔符''
它需要保持这种形式。我想要的是:
2 ['str9', 'str10', 'abcde', 'fghi', 'str12', ...]
一系列的清单不仅仅是它们。就像300000行一样,所以我需要在迭代中使用split函数。你知道吗
你知道吗+++ 我在应用了nltk word\u tokenize之后得到了这个系列。你知道吗
lists_above=mydataframe['textcolum'].apply(word_tokenize)
但是,由于数据中有许多没有空格的句子,所以我尝试了更多的步骤
在pandas中使用lambda列表理解可以很容易地做到这一点:
试试这个(第一个如果你的列表是一个字符串,第二个如果你的列表是一个列表):
输出:
相关问题 更多 >
编程相关推荐