一种工具,用于对基因组和谱系中的基因功能分组进行富集测试。
keggm的Python项目详细描述
keggm-我用来分析微生物基因组的一小套工具
这是一个目前非常简单的包。只有两个功能完全可用。
Enrichm寻找代谢块,与某些背景相比,它们在你的基因组中富集。 这是一个很好的尝试,得到一个关于你的基因组是如何不同的背景设置在某些代谢功能的快速想法。 您可以指定自己的块,并使用自定义的蛋白质名称,使其具有相当的可扩展性。
completm是一个小工具,可以帮助探索你的基因组可以发挥什么功能。 它创造了一个“完整性”矩阵,让你知道你的基因组是否显示出执行代谢阻滞的潜力。 它还创建了一个含有蛋白质名称的矩阵,这有助于检查你的代谢阻滞是否 完全的,由于蛋白质通常注释很差,如果有互补的蛋白质,哪些是存在的。 这将被扩展,以根据某些用户阈值为每个有机体提供一个“完整”模块的列表。
正在工作
plots旨在创建一些小的可视化,以便更好地解析完整性结果。它由热图组成,可以快速扫描整个基因组, 稍后将包括每个代谢块的箭头图,其中每个箭头代表一种蛋白质。 箭头将根据含有相关蛋白质的生物体着色。
重叠试图识别是不是有机体有互相补充的潜力。 它通过寻找一个有机体中完整的代谢块来实现这一点,但代谢块的其余部分可以在另一个有机体中找到。
待办事项:
- 做一个更好的测试套件
- 使其在命令行上可用(以方便使用)
-
DD>在主软件
- 带有比较完整性选项的绘图
- 多个基因组模块内重叠的可视化,类似于共生体+珊瑚纸
- 一些kegg路径的着色,让你对路径中的内容有一个大致的了解。
- 最终,如果我能做到的话,使网络足够强大,可以自动发现新的新陈代谢
- 添加更多可定制性-使任何用户都可以创建自己的额外kegg数据,以便在本软件中使用
-
LI>需要一些辅助工具来扩充永久数据库
其他待办事项:
- 在比较阶段使其成为多线程/多处理器(当前的比较规模不会造成速度问题)
- 根据多线程的产品消费者模型实现
- 调查优化的Booschloo测试,以及它是否有合理的运行时间(不太可能)
- 为更好的调试实现一个日志系统-将使我的生活更容易。