用cas9激活的谱系记录器重建单细胞谱系
cassiopeia-lineage的Python项目详细描述
这是一个软件套件,用于处理来自单细胞血统跟踪实验的数据。这套套房配有三个主要模块:
- 目标站点排序管道:从沿袭跟踪实验生成的原始fastq中提取沿袭信息的管道。
- 系统发育重建:构建系统发育的工具集合。我们支持目前的5种算法:基于多状态兼容性的贪婪算法、精确Steiner Tree solver、卡西奥佩娅(这两种组合)、邻居连接和CAMIN SOKAL最大简约。
- benchmarking:用于基准测试的一组工具;模拟框架和树比较工具。
您可以在[此处]找到所有文档(https://cassiopeia-lineage.readthedocs.io/en/latest/readme.html)
您还可以在此存储库中找到示例笔记本:
- [处理fastqs](https://github.com/YosefLab/Cassiopeia/blob/master/notebooks/process_fastq.ipynb)
- [重建树](https://github.com/YosefLab/Cassiopeia/blob/master/notebooks/reconstruct_lineages.ipynb)
- [模拟树木和压力测试](https://github.com/YosefLab/Cassiopeia/blob/master/notebooks/simulate_and_stress_test.ipynb)
自由软件:麻省理工学院许可证
安装
- 按原样克隆包:git clone https://github.com/YosefLab/Cassiopeia.git
- 确保安装了python3.6。你可以通过pip安装这个。
- 确保已安装Gurobi。您可以按照[此处]列出的说明操作(http://www.gurobi.com/academia/for-universities)。要验证它是否正常工作,请使用以下测试:
- 从终端窗口运行命令gurobi.sh。
- 从gurobi安装目录(其中有一个setup.py文件)中,使用python setup.py install --user
- 请确保Emboss已正确配置和安装;在尝试与我们提供的align\u sequences函数对齐时,用户经常会看到“command not found”错误。这很可能是因为您没有正确地将二进制文件添加到path变量中。有关如何下载、配置和安装Emboss包的详细信息,请参阅本[教程](http://emboss.open-bio.org/html/adm/ch01s01.html)。
- 您可以通过python3.6 -m pip install --usercassiopeia-lineage从pip安装包。Cassiopeia的一个依赖项Pysam要求安装htslib。你可以在这里读到pysam的需求(https://pysam.readthedocs.io/en/latest/installation.html#requirements)。否则,如果要从源代码安装包(即从github克隆后),请使用以下命令:
- python3.6 setup.py build
- python3.6 setup.py build_ext --inplace
- python3.6 setup.py bdist_wheel
- python3.6 -m pip install . --user
要验证安装是否正确,请尝试在python会话中使用该包:import cassiopeia。然后,要确保命令行工具正常工作,请尝试reconstruct-lineage-h,并确认获得了使用详细信息。
命令行工具
除了允许用户在python会话中使用cassiopeia之外,我们还为常见的管道过程提供了五个独特的命令行工具:
- 重建沿袭:从提供的字符矩阵重建沿袭(由单元格x字符组成,其中每个元素是该单元格中该字符的观察状态)。
- 后处理树:重建后处理树,将样本标识分配回树的叶,并移除与字符矩阵中的样本不对应的任何叶。
- 压力测试:在给定的模拟树上进行压力测试。在从“true”模拟树的唯一叶子推断树之后,写出一个新的树文件。
- 调用沿袭:从分子表执行沿袭组调用。
- 过滤分子表:执行分子表过滤。
使用-h标志可以找到所有使用详细信息。