一个python包,用于比较功能丰富和分类方法中路径数据库选择的效果
pathway-forte的Python项目详细描述
一个python包,用于用功能丰富和预测方法对路径数据库进行基准测试 任务。
安装
pathway_forte可以从PyPI安装 使用终端中的以下命令:
$ python3 -m pip install pathway_forte
最新的代码可以从GitHub安装 使用:
$ python3 -m pip install git+https://github.com/pathwayforte/pathway-forte.git
对于开发人员,可以使用以下命令安装代码:
$ git clone https://github.com/pathwayforte/pathway-forte.git
$ cd pathway-forte
$ python3 -m pip install -e .
主要命令
下表列出了PathwayForte的主要命令。
Command | Action |
---|---|
datasets | Lists of Cancer Datasets |
export | Export Gene Sets using ComPath |
ora | List of ORA Analyses |
fcs | List of FCS Analyses |
prediction | List of Prediction Methods |
功能富集方法
- ora。表示分析列表(例如,单尾超几何测试)。
- fcs。列出使用GSEAPy的函数类得分分析,如gsea和ssgsea。
预测方法
pathway_forte使用个性化路径活动分数启用三种分类方法(即二进制分类、多分类任务的训练支持向量机或生存分析)。分数可以通过各种工具(见[1])从任何路径计算,使用任何能够导出其基因集的路径数据库。
- binary。训练用于二元分类任务(例如,肿瘤与正常患者)的弹性网络模型。使用嵌套交叉验证方法进行培训(可以选择两个循环中的交叉验证次数)。使用的模型很容易更改,因为scikit-learn(这个包使用的机器学习库)中的大多数模型都需要相同的输入。
- 子类型。训练支持向量机模型进行多类分类任务(例如,预测肿瘤亚型)。使用嵌套交叉验证方法进行培训(可以选择两个循环中的交叉验证次数)。与前面的分类任务类似,可以快速实现其他模型。
- 生存。训练具有弹性净惩罚的cox比例风险模型。训练采用嵌套交叉验证方法,在内环中进行网格搜索。此分析需要路径活动分数、患者类别和终生患者信息。
参考文献
[1] | Lim, S., et al. (2018). Comprehensive and critical evaluation of individualized pathway activity measurement tools on pan-cancer data. Briefings in bioinformatics, bby125. |
[2] | Domingo-Fernández, D., et al. (2018). ComPath: An ecosystem for exploring, analyzing, and curating mappings across pathway databases. npj Syst Biol Appl., 4(1):43. |
[3] | Weinstein, J. N., et al. (2013). The cancer genome atlas pan-cancer analysis project. Nature genetics, 45(10), 1113. |