在pandas中用一列和公共索引合并两个以上的文件

Bact1 [1821932:1822487](+) [1973928:1975194](-) NaN Bact2 [555760:556294](+) [972152:973499](+) NaN Bact3 [2901866:2902424](-) [3001035:3002739](-) NaN Bact4 [1104980:1105544](+) [3331158:3332481](+) NaN Bact5 NaN [712517:713771](+) NaN Bact5 NaN [1376120:1377386](-) NaN Bact6 NaN NaN [4045708:4047781](+)

for x in range(1,10): df[x]=pandas.read_csv("file%s.csv" % (x),header=None,index_col=[0]) df[x].columns=['gene%s' % (x)] dfjoin={} dfjoin=df[1].join([df[2],df[3],df[4],df[5],df[6],df[7],df[8],df[9],df[10]])

0 gene1 gene2 gene3 Starkeya-novella-DSM-506 NaN [728886:730173](+) [731445:732615](+) Starkeya-novella-DSM-506 NaN [728886:730173](+) [9662:10994](+) Starkeya-novella-DSM-506 NaN [728886:730173](+) [9662:10994](+) Starkeya-novella-DSM-506 NaN [728886:730173](+) [9662:10994](+)

2条回答

网友

1楼 · 编辑于 2024-09-26 18:09:37

我稍微改变了你的示例数据，代码如下：

import pandas as pd
import io

data = {
"file1":"""Bact1,[1821932:1822487](+)
Bact2,[555760:556294](+)
Bact3,[2901866:2902424](-)
Bact4,[1104980:1105544](+)
Bact5,[1104981:1105544](+)
Bact5,[1104982:1105544](+)""",

"file2":"""Bact1,[1973928:1975194](-)
Bact2,[972152:973499](+)
Bact3,[3001035:3002739](-)
Bact4,[3331158:3332481](+)
Bact5,[712517:713771](+)
Bact5,[1376120:1377386](-)
Bact5,[1376121:1377386](-)""",

"file3":"""Bact4,[3331150:3332481](+)
Bact6,[4045708:4047781](+)"""}

def read_file(f):
    s = pd.read_csv(f, header=None, index_col=0, squeeze=True)
    return s.groupby(s.index).apply(lambda s:pd.Series(s.values))

series = {key:read_file(io.StringIO(unicode(text)))
          for key, text in data.items()}

print pd.concat(series, axis=1)

输出：

^{pr2}$

网友

2楼 · 编辑于 2024-09-26 18:09:37

假设您已将这些作为数据帧读入，如下所示：

In [11]: df1 = pd.read_csv('file1.csv', sep=',', header=None, index_col=[0], names=['bact', 'file1'])

In [12]: df1
Out[12]: 
                      file1
bact
Bact1  [1821932:1822487](+)
Bact2    [555760:556294](+)
Bact3  [2901866:2902424](-)
Bact4  [1104980:1105544](+)

然后您可以简单地^{}它们：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章