Python中文
首页
教程
问答
标签
搜索
登录
注册
如何读取Pandas的数据集?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我尝试编写一个Python脚本,从以下数据集中过滤出一些信息:</p> <pre><code>>Feature NC_000913< 190 255 CDS gene thrL inference NCBI RefSeq Database inference UniProtKB/Swiss-Prot:P0AD86 locus_tag 16127995 product thr operon leader peptide 337 2799 CDS gene thrA inference NCBI RefSeq Database inference UniProtKB/Swiss-Prot:P00561 locus_tag 16127996 product Bifunctional aspartokinase/homoserine dehydrogenase 1 2801 3733 CDS gene thrB inference NCBI RefSeq Database inference UniProtKB/Swiss-Prot:P00547 locus_tag 16127997 product homoserine kinase 3734 5020 CDS gene thrC inference NCBI RefSeq Database inference UniProtKB/Swiss-Prot:P00934 locus_tag 16127998 product L-threonine synthase 5234 5530 CDS gene yaaX inference NCBI RefSeq Database inference UniProtKB/Swiss-Prot:P75616 locus_tag 16127999 product DUF2502 family putative periplasmic protein </code></pre> <p>我需要的任务是搜索超过20个数字长的差距,例如255-337。然后,它应该在文本文件中写入gap和瑞士保护id,例如P0AD86-P00561。 我试着使用熊猫,因为我认为它适合这个任务。 我的尝试是:</p> <pre><code>import pandas as sd df = pd.read_csv("K12.tbl", error_bad_lines=False, header=(0), engine='python') print(df.head(21)) </code></pre> <p>试图将.tbl文件中的排序放入结构化表中,这是我的输出:</p> <pre><code>>Feature NC_000913< 0 190\t255\tCDS 1 \t\t\tgene\tthrL 2 \t\t\tinference\tNCBI RefSeq Database 3 \t\t\tinference\tUniProtKB/Swiss-Prot:P0AD86 4 \t\t\tlocus_tag\t16127995 5 \t\t\tproduct\tthr operon leader peptide 6 337\t2799\tCDS 7 \t\t\tgene\tthrA 8 \t\t\tinference\tNCBI RefSeq Database 9 \t\t\tinference\tUniProtKB/Swiss-Prot:P00561 10 \t\t\tlocus_tag\t16127996 11 \t\t\tproduct\tBifunctional aspartokinase/homo... 12 2801\t3733\tCDS 13 \t\t\tgene\tthrB 14 \t\t\tinference\tNCBI RefSeq Database 15 \t\t\tinference\tUniProtKB/Swiss-Prot:P00547 16 \t\t\tlocus_tag\t16127997 17 \t\t\tproduct\thomoserine kinase 18 3734\t5020\tCDS 19 \t\t\tgene\tthrC 20 \t\t\tinference\tNCBI RefSeq Database Skipping line 37: Expected 1 fields in line 37, saw 2 Skipping line 79: Expected 1 fields in line 79, saw 2 Skipping line 85: Expected 1 fields in line 85, saw 2 </code></pre> <p>(<a href="https://pastebin.com/N1z9mpqb" rel="nofollow noreferrer">https://pastebin.com/N1z9mpqb</a>)。 我不知道如何得到一个合适的表格,以及如何比较这些数字来找出差距。这是我第一次做数据分析。。。 我希望有人能帮助我,并感谢任何想法:D</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您的文件是以制表符分隔的,但标题行没有显示字段的数量。您可以使用<code>names</code>参数作为提示:</p> <pre><code>df = pd.read_csv("K12.tbl", sep='\t', names=['A', 'B', 'C', 'D', 'E'], error_bad_lines=False) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
当启用身份验证时,超过一定大小的http发布失败
10 回答
当呈现Flask温度时,bokeh图为空
3 回答
当呈现模板时,如何引用sqlalchemy中的自定义字段?
5 回答
当周围有更多相同类型的标记时,如何从一个标记中提取数据
9 回答
当周数跨越多个y时,如何使用Pandas groupby week
7 回答
当呼唤django和python提示时
3 回答
当命令`Brew installPython@2`然后出现错误“Theme error”。如何解决?
4 回答
当命令[1]不存在时,用户输入命令以列出超出范围的索引
4 回答
当命令/启动被发送到bot时,bot应该删除发送给组的标签;但是bot没有
1 回答
当命令lin执行时,导入datetime会在Python脚本中引发ModuleNotFound“math”
1 回答
当命令中提到Bot时,Bot发送其前缀
3 回答
当命令位于DM中时,Python Discord.py bot将角色分配给服务器中的用户
6 回答
当命令在discord.py中缺少必需的参数时,如何显示消息
2 回答
当命令在多个不同的服务器上处于活动状态时,如何在discord.py上使用while循环
9 回答
当命令在提示符下成功运行时,Python subprocess.check_输出产生错误
3 回答
当命令提示时自动按键按回车键
1 回答
当命令提示符意外关闭时,如何访问python虚拟环境?
5 回答
当命令提示符给出导入错误时,当我尝试运行服务器python文件时,需要进行什么更改?
4 回答
当命令有双引号时,如何从python运行windows命令行命令
1 回答
当命令的一部分来自用户inpu时在linux服务器上执行命令的安全方法
1 回答