PlncPRO(随机森林植物长非编码rna预测)是一个分类编码(mRNAs)和长非编码转录本(lncRNAs)的程序。

plncpro的Python项目详细描述


Build Status ^{1}$ PyPI - Downloads

                      _____  _            _____  _____   ____  
                     |  __ \| |          |  __ \|  __ \ / __ \ 
                     | |__) | |_ __   ___| |__) | |__) | |  | |
                     |  ___/| | '_ \ / __|  ___/|  _  /| |  | |
                     | |    | | | | | (__| |    | | \ \| |__| |
                     |_|    |_|_| |_|\___|_|    |_|  \_\\____/ 

简介

PlncPRO(随机森林植物长非编码rna预测)是一个分类编码(mRNAs)和长非编码转录本(lncRNAs)的程序。 我们的方法基于随机森林方法,使用蛋白质同源性搜索、基于序列和基于3-mer频率的特征。 我们开发了几种植物的预测模型来预测lncRNAs。 我们在植物和脊椎动物身上对我们的方法进行了全面测试,发现我们的模型比现有的工具更有效。在

引文

Singh等人,PLncPRO用于预测植物中的长非编码RNA(lncRNAs)及其在水稻和鹰嘴豆中发现非生物胁迫响应的LNCPro中的应用。核酸研究,2017年12月15日;45(22):e183。doi:10.1093/nar/gkx866。在

注意:我们已经为python3更新了PlncPro。python2的PlncPro也可以在http://ccbb.jnu.ac.in/plncpro/获得。此新版本的用法与旧版本不同。

安装

先决条件:

  1. 操作系统:Linux、macOS
  2. Python3.5或更高版本(http://www.python.org/
  3. NCBI爆炸(https://blast.ncbi.nlm.nih.gov/Blast.cgi
  4. GNU C库(glibc>;=2.14)

python依赖项

  1. 数字(http://www.numpy.org/
  2. 杂乱(https://www.scipy.org/
  3. Scikit学习(http://scikit-learn.org/
  4. 生物圈(http://biopython.org/
  5. 正则表达式

使用PIP

^{pr2}$

来源

git clone https://github.com/urmi-21/PLncPRO.git
pip install PlncPro

运行测试

bash tests/local_test.sh

基本用途

有关详细的用法示例,请参见examples。在

plncpro predict

标记lncRNAs和mRNAs。此文件读取输入 包含序列的文件,然后将序列分类为编码或 非编码。它使用由构建.py分类。 它输出一个包含类标签和每个类概率的文件 顺序。在

plncpro predict -i <input fasta> -o <output_dir> -p <output_file_name> -t 2 -d <blast_db> -m <model_file>

参数

-p,--prediction_out	output file name
-i,--infile		file containing input sequences
-m,--model		model file
-o,--outdir		output directory name
-d,--db			path to blast database
		OPTIONAL
-t,--threads		number of threads [default: 4]
-l,--labels		path to the files containg labels(it outputs classification accuracy)
-r,--remove_temp	clean up intermediate files
-v,--verbose		show more messages
--min_len		specifiy min_length to filter input files
--noblast		Don't use blast features
-no_ff			Don't use framefinder features
--qcov_hsp		specify query coverage parameter for blast[default:30]
--blastres*		path to blast output for input file
*blast result should be in following format: -outfmt '6 qseqid sseqid pident evalue qcovs qcovhsp score bitscore qframe sframe'

plncpro build

使用给定的训练数据建立模型 (mRNA/lncRNA转录本)。此文件读取两个带标签的数据集 包含编码和非编码的转录本。然后它就变成了一个随机的 基于森林的分类模型和保存模型,可以使用 预测未知序列。在

plncpro build -p <mrna fasta> -n <lncrna fasta> -o <out_dir> -m <model_name> -d <blast db> -t <threads>

参数

-p,--pos		file containing mRNA sequences
-n,--neg		file containing lncRNA sequences
-m,--model		output model name
-o,--outdir		output directory name
-d			path to blast database
		OPTIONAL
-t,--threads		number of threads [default: 4]
-k,--num_trees		number of trees[default: 1000]
-r,--remove_temp	clean up intermediate files
-v,--verbose		show more messages	
--min_len		specifiy min_length to filter input files
--noblast		Don't use blast features
--no_ff			Don't use framefinder features
--qcov_hsp		specify query cov parameter for blast[default:30]
--pos_blastres*		path to blast result for mRNA input file
--neg_blastres*		path to blast result for lncRNA input file

*blast result should be in following format: -outfmt '6 qseqid sseqid pident evalue qcovs qcovhsp score bitscore qframe sframe' 

plncpro prettoseq

从中提取mRNA或lncRNA序列 PLNCPRO输出文件。此文件读取预测输出文件并 从给定的类中提取序列。用户可以指定类和 截取概率并提取期望的转录序列。在

plncpro predtoseq -f <fasta_file> -o <outputfile> -p <PLNCPRO_prediction_file> -l <required_label>

参数

-f			input fasta file name
-o			output fasta file name	
-p			path to file containg predictions by PLNCPRO
		OPTIONAL
-l			label of the required sequences (0 for lncRNA;1 for mRNA) [default:0]
-s			class probability cutoff (extract sequences with probability greater than or equal to s
--min			specifiy min_length of sequences[default:0]
--max			specifiy min_length of sequences[default:Inf]

下载论文中使用的数据

数据托管在googledrive上。Direct link

使用wget直接下载。在

wget --load-cookies /tmp/cookies.txt "https://docs.google.com/uc?export=download&confirm=$(wget --quiet --save-cookies /tmp/cookies.txt --keep-session-cookies --no-check-certificate 'https://docs.google.com/uc?export=download&id=108S-9Bt4CLCHTaCn6-HKTqQZDo0nssZe' -O- | sed -rn 's/.*confirm=([0-9A-Za-z_]+).*/\1\n/p')&id=108S-9Bt4CLCHTaCn6-HKTqQZDo0nssZe" -O plncpro_data.zip && rm -rf /tmp/cookies.txt

复制

GNU公共许可证版本3(GPLv3) 关于http://www.gnu.org/copyleft/gpl.html的详细信息

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Junit测试中的java Teardown()用于重置字段   java如何在mainactivity中编写多个按钮而不出错?   java Android如何使用Youtube数据API检索特定Youtube视频的JSON结果   java如何在Android应用程序和本地单元测试中加载相同的JSON文件?   java如何模拟方法的行为   java从Firebase检索数据时,导致应用程序停止的错误是什么?   java如何在Android中使用自签名SSL证书   java从JRE5升级到JRE8的利弊是什么?   java如何在它们之间写“标记”   java throw FileNotFoundException不工作   无法使用FileReader和BufferedReader读取Java中的文本文件,可能的原因是什么?   使用OpenId AppAuthAndroid库时,具有隐式意图的java PendingEvent返回已取消的异常   java Android:导航抽屉布局动态更改图标   java Android:获取生成的变量及其值?   java Ilegal表达式的开始   调试Java的核心转储等效程序   java jsp标记库更改复选框名称?