st-pipeline:一种用于唯一转录本空间映射的自动化管道
stpipeline的Python项目详细描述
st管道包含处理所需的工具和脚本 并分析由空间转录组学生成的原始文件 方法以FastQ格式生成数据集以进行下游分析。 ST管道还可用于处理单个单元格数据 只要提供一个带有标识每个单元格的条形码的文件。 st管道还可以处理 或者没有umis。
ST管道已经过速度、稳健性和 易于使用与许多参数来调整所有设置。
需要以下文件/参数:
- fastq文件(读取1,包含空间信息和umi 阅读包含基因组序列的2)
- 用star生成的基因组索引
- gtf或gff格式的注释文件(可选)
- 包含条形码和数组坐标的文件
- (查看文件夹“ids”并选择正确的一个)。 基本上这个文件包含3列(条形码、X和Y)。 因此,如果您为该文件提供了标识输入单元格的条形码(例如), st管道可用于单单元数据。 此文件也是可选的。
- 数据集的名称
ST管线有多个主要与修边有关的参数, 映射和注释,但通常默认值足够好。 您可以看到参数的完整描述 安装ST管道后,键入“st_pipeline_run.py–help”。
输入的fastq文件也可以用gzip/bzip格式给出。
基本上,st管道的作用是:
- 质量微调(读取1和读取2):
- 去除低质量底座
- 健全性检查(读取相同长度、读取顺序等)
- 检查质量umi(如果提供)
- 删除用户定义长度的工件(polyt、polya、polyg、polyn和poly)
- 检查AT和GC含量
- 放弃至少有个基数的读操作,但上述任何检查都失败
- 连续筛选e.x.rrna基因组(可选)
- 用星形映射(只读2)
- 用[TGAD](^ {A1})解复用(仅读取1)
- 保持包含有效条形码且正确映射的读取(读取2)
- 用htseq count(可选)注释读操作
- 按条形码(点位置)和基因对带注释的读取进行分组,以获得读取计数
- 在分组/计数中,只保留唯一分子(umi)。
您可以在documents workflow.pdf和workflow_extended.pdf中看到工作流的更详细的图形描述
输出将是计数矩阵(基因作为列,点作为行)。 包含转录本(读名、坐标、基因等)和json的bed文件 文件中包含有用的统计信息。 st管道还将输出包含有用信息的日志文件。