用ML预测酶催化最适温度
tomer的Python项目详细描述
TOMER:重采样酶的温度优化
TOMER是一个Python软件包,用于通过机器学习预测酶的催化最适温度(Topt)。托默在一个由2917个蛋白质组成的数据集上接受训练。为了避免较高温度值的预测误差过大,采用重采样策略来减轻数据分布不平衡的影响。可在here中找到该机的设计代码。在
引文
如果您认为TOMER有用,请引用:
- 加多,J.E.,贝克汉姆,G.T.,佩恩,C.M.(2020)。利用重采样策略和集成学习改进酶最适温度预测。J.化学。信息模型。60(8),4098-4107。在
安装
用pip安装
pip install tomer
或来源(首选)。建议使用虚拟环境。在
^{pr2}$先决条件
(本书使用的版本)
- Python 3(3.6.6)
- Scikit学习(0.21.2)
- 纽比(1.14.2)
- 熊猫(0.24.1)
- 作业库(0.13.2)
使用
TOMER中有两个主要函数用于预测酶的最适温度:pred_seq_topt,它预测单个蛋白质序列(字符串)的最适温度,pred_fasta_topt,它预测fasta文件中蛋白质序列的最适温度。要使用这些功能,您必须指定蛋白质源生物体的最佳生长温度(OGT)。如果OGT未知,则可以使用TOME获得预测。在
示例
importtomer# Predict optimum temperature of a single sequence.sequence='''MKKQVVEVLVEGGKATPGPPLGPAIGPLGLNVKQVVDKINEATKEFAGMQVPVKIIV DPVTKQFEIEVGVPPTSQLIKKELGLEKGSGEPKHNIVGNLTMEQVIKIAKMKRSQML ALTLKAAAKEVIGTALSMGVTVEGKDPRIVQREIDEGVYDELFEKAEKE'''ogt=95y_pred,y_err=tomer.pred_seq_topt(sequence,ogt)print(y_pred)# predicted optimum temperature82.415print(y_err)# Standard error of prediction (over 100 base learners in ensemble)2.0913518953060004# Predict optimum temperatures of sequences in fasta filefasta_file='test/sequences.fasta'ogt_file='test/ogts.txt'df=tomer.pred_fasta_topt(fasta_file,ogt_file)# returns dataframeprint(df)SequenceToptStderr0P4340879.3451.535611Q97X0881.7050.4424422F8A9V076.371.16195
- 项目
标签: