为病毒实验挑选独特的相关肽
purple-bio的Python项目详细描述
______________
_______________
_____________
____________
_____________
______________
为病毒实验挑选独特的相关肽
版本:0.4.2
说明
新出现的病毒性疾病对全球公共卫生构成威胁。为了在时间紧迫的情况下检测病毒病原体,需要准确、快速的诊断分析。现在可以利用基于质谱的靶向蛋白质组学建立这样的检测方法,通过这种方法,可以快速检测从复杂样品到菌株水平的病毒蛋白质,具有高灵敏度和重复性。开发此类靶向分析涉及到冗长的肽候选选择、肽合成和分析优化步骤。通过比较候选肽和背景蛋白的大搜索空间,肽选择需要大量的预处理。在这里,我们提出紫色(为病毒实验挑选独特的相关肽),一个软件工具,用于直接从给定的蛋白质组序列数据中选择目标特异肽候选。它具有直观的图形用户界面、各种参数选项和基于阈值的同源序列过滤策略。紫色能够在不同的分类水平上进行肽候选选择,并在复杂程度不同的背景下进行过滤。它的功能是用来自不同病毒种类和毒株的数据证明的。我们的软件能够建立分类单元特异性靶向分析,并为使用靶向蛋白质组学进行高效、稳健的病毒诊断铺平道路。
要求
- 蟒蛇3.4+
- 全面质量管理
- 生物圈
- 皮亚姆
克隆
git clone https://gitlab.com/HartkopfF/Purple
目标选择
只使用根目录,排除所有子目录以及所有不以.fasta结尾的文件。实现了两种目标选择方案。 第一种方法是在用逗号分隔的列表中命名目标。使用这种方法,所有的数据库被合并,并且在uniprot报头的起源物种(os)部分包含一个目标的每个蛋白质被视为目标蛋白质。物种匹配过程不区分大小写。非靶蛋白作为背景数据库。 第二种方法是在数据库目录中指定一个文件作为目标数据库。所有剩余的数据库都被合并并作为后台数据库进行组装。由于背景数据库仍然可以包含源于目标物种之一的蛋白质,因此如果背景数据库中的每个蛋白质与目标数据库中的目标物种匹配,则将其从进一步分析中删除。
如何使用紫色
从发布页面(不需要python)。
双击下载的可执行文件,紫色开始。
通过图形用户界面加载配置文件或编辑参数(数据库文件夹和目标选择)。
在输出文件夹中打开结果
如何通过pip在python中直接使用紫色
purple可在pypi上找到,这里是:
- 使用以下命令安装最新版本:
pip install purple-bio
或
pip3 install purple-bio
编辑配置文件config.yml(下载模板)并指定数据库文件夹和目标。
将这些行添加到python 3.x代码中:
import purple purple.main("path/to/config.yml")
- 在输出文件夹中打开结果
如何在conda中直接使用紫色
- 使用以下命令安装最新版本:
conda install purple-bio
编辑配置文件config.yml(下载模板)并指定数据库文件夹和目标。
将这些行添加到python 3.x代码中:
import purple purple.main("path/to/config.yml")
- 在输出文件夹中打开结果
配置
配置yaml文件模板(下载):
purple: comment: comment i_am_not_sure_about_target: true leucine_distincion: false leucine_distinction: false max_len_peptides: 50 min_len_peptides: 5 path_DB: ../res/DB path_output: ../output/ print_peptides: true proline_digestion: false removeFragments: true target: [target1,target2] targetFile: path/to/targetFile threshold: 80 update_DB: true
参数列表
| Parameter | Description | Example | Default |
|----------------------------|-------------------------------------------------------------|----------------------------|------------|
| target | List of targets to find unique peptides | [Hepatitis B, Hepatitis A] | No default |
| threshold | Threshold to filter matches | Values between 0 and 100 | 70 |
| update_DB | Build a database or use old one | True or False | False |
| path_DB | Path to folder with fasta files | C:/myFASTAs/ | ../res/DB/ |
| path_output | Path to output folder to store results | C:/results/ | ../output/ |
| targetFile | File name of the fasta with target entries | target.fasta | |
| i_am_not_sure_about_target | Option to check targets before matching peptides | True or False | True |
| max_len_peptides | Maximum length of peptides | Positive numerical values | 25 |
| min_len_peptides | Minimum length of peptides | Positive numerical values | 5 |
| removeFragments | Option to remove proteins with "(Fragments)" in the header | True or False | No default |
| leucine_distinction | Option to enable distinction of leucine and isoleucine | True or False | No default |
| proline_digestion | Option to apply proline digestion rule | True or False | No default |
| print_peptides | Print peptides at the end | True or False | False |
| comment | Comments for the log book | Text or numbers | no comment |
输出
输出包括一个包含七个文件的文件夹,用于共享、精确匹配、同源匹配、消化和最终特定目标的唯一肽。此外,还提供了紫色命令行输出的日志和带有运行摘要的日志。
最终结果文件中的信息:
-肽:独特的肽序列。
-肽重:用生物ython计算的独特肽的肽重。
-最高背景一致性:每个肽同源匹配的最高背景一致性。
-出现次数:每个肽的出现次数。
-种类:肽的种类。
-蛋白质名称:含有该肽的蛋白质的名称。
-fasta条目:包含该肽的fasta条目的标题。
-说明:完成蛋白质名称中所列蛋白质的标题。