从单蛋白和特异性残基中提取13肽序列

2024-05-20 16:25:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个单蛋白的列表,其中有一个相应的感兴趣的残基(例如Q7TQ48\u48S442)。我需要检索蛋白质序列中特定位点周围的+/-6残基(在本例中,我需要的序列是diaeaSEERQQE)。 你能用Python、R或者一个已经可用的web工具为id+感兴趣的剩余部分列表提供一个方法吗? 谢谢, 伊曼纽尔


Tags: 工具方法webid列表序列蛋白质残基
1条回答
网友
1楼 · 发布于 2024-05-20 16:25:06

如果我从https://www.uniprot.org/uploadlists/向UniProt输入一个蛋白质id列表,或者上传一个文件,我会得到一个结果表。在表格的顶部,有一个选项允许您选择列-一个选项是肽序列(目前还不需要编程-只需上传你感兴趣的UID列表即可

现在,要提取特定的序列,可以在R中使用substr命令来完成。在这里,我们想从两端加/减6:

len13seq <- with(uniprot_data, substr(peptide_sequence, start = ind - 6, stop = ind + 6 ))

在您的示例中,ind = 442

为了让这一切顺利,你需要

  1. 将标记分为两个(+?)列—UniprotID和site index。你也可以包括氨基酸,如果你需要它为以后的分析
  2. 创建一个只包含UniProtIDs的文件,该文件被送入UniProt数据库
  3. 自定义显示的列,确保获得序列
  4. 下载结果并读入R
  5. 将原始数据帧(带有站点索引)与下载的结果合并
  6. 在你感兴趣的点附近生成序列

完全在R内完成是可能的-我曾经做过,但我不确定你是否需要它,除非你需要整个事情都自动化。如果你需要的话,我建议你去看看https://www.bioconductor.org/packages/3.7/bioc/html/UniProt.ws.html。我不经常使用Bioconductor,所以我对包装不熟悉。当我以前使用R来获取UniProt数据时,我所追求的在tablular输出中是不可用的,我不得不修改我的代码来获取我所追求的数据。 希望生物导体的解决方案比我做的容易

相关问题 更多 >