大制表符/逗号分隔文本的python库

id snp1 snp2 snp3 snp4 snp5 snp6 RS1->1000001 DOSE 1.994 1.998 1.998 1.998 1.830 1.335 RS1->1000002 DOSE 1.291 1.998 1.998 1.998 1.830 1.335 RS1->100001 DOSE 1.992 1.998 1.998 1.998 1.830 1.335 RS1->100002 DOSE 1.394 1.998 1.998 1.998 1.830 1.335 RS1->10001 DOSE 1.994 1.998 1.998 1.998 1.830 1.335 RS1->1001001 DOSE 1.904 1.998 1.998 1.998 1.830 1.335 RS1->1002001 DOSE 1.094 1.998 1.998 1.998 1.830 1.335 RS1->1003001 DOSE 1.994 1.998 1.998 1.998 1.830 1.335 RS1->1004001 DOSE 1.994 1.998 1.998 1.998 1.830 1.335 RS1->1005002 DOSE 1.994 1.998 1.998 1.998 1.830 1.335

SNP Al1 Al2 Freq1 MAF Quality Rsq 22_16050607 G A 0.99699 0.00301 0.99699 0.00000 22_16050650 C T 0.99900 0.00100 0.99900 0.00000 22_16051065 G A 0.99900 0.00100 0.99900 0.00000 22_16051134 A G 0.99900 0.00100 0.99900 0.00000 rs62224609 T C 0.91483 0.08517 0.91483 -0.00000 rs62224610 G C 0.66733 0.33267 0.66733 0.00000 22_16051477 C A 0.99399 0.00601 0.99399 -0.00000 22_16051493 G A 0.99900 0.00100 0.99900 -0.00000 22_16051497 A G 0.64529 0.35471 0.64529 0.00000

2条回答

网友

1楼 · 编辑于 2024-06-03 05:05:42

有csv模块。它是用C后端编写的，因此它的性能应该相当不错。也就是说，如果格式足够简单，str.split可能会更快。你知道吗

在我看来，与使用CSV文件存储数据相比，使用某种数据库可能是更好的选择。你知道吗

网友

2楼 · 编辑于 2024-06-03 05:05:42

对于以高性能和高效操作处理大型文件和数据，没有比pandas更好的模块了

以下代码将把您的文件读入DataFrame并允许轻松操作：

import pandas as pd
data = 'my_data.csv'
df = pd.read_csv(data)

现在df是一个包含数据的高效数据帧！而且，您甚至不需要说它是制表符分隔符，因为pandas“嗅”分隔符

相关问题更多 >

编程相关推荐

热门问题

热门文章