我有这个数据帧df:
columnId column2 column3 countsOfWord
id1 hogedijk klarenbeek 2016 2
id2 hogedijk klarenbeek zuidoost hogedijk klarenbeek zuidoost 2012 6
id3 zuidoost clouds 2010 2
id4 artzuid zuidoost hogedijk klarenbeek zuidoost clouds hogedijk klarenbeek 2019 8
我迫切需要将countsOfWords上面的行(如id2和id4拆分为相等的部分),以便这些行的countsOfWords列只包含两个单词,而不改变列ID和第3列。我的df数据帧如下所示:
columnId column2 column3 countsOfWord
id1 hogedijk klarenbeek 2016 2
id2 hogedijk klarenbeek 2012 2
id2 zuidoost hogedijk 2012 2
id2 klarenbeek zuidoost 2012 2
id3 zuidoost clouds 2010 2
id4 artzuid zuidoost 2019 2
id4 hogedijk klarenbeek 2019 2
id4 zuidoost clouds 2019 2
id4 hogedijk klarenbeek 2019 2
有人能帮我吗
我尝试了这段代码,但它不会自动为countsOfWords以上两次:
df['column2'].iloc[1][0:len(df['column2'].iloc[0])//2]
我们可以将您的值拆分为一个列表,然后将它们拆分为两个元素的相等块
然后我们检查元素数
> 2
和explode
这些行的位置:您可以尝试以下方法(使用} ):
str.split()
和zip()
,然后使用^{印刷品:
IIUC我们做
explode
然后cumcount
将组拆分为子组或
findall
+explode
相关问题 更多 >
编程相关推荐