st-pipeline:一种用于唯一转录本空间映射的自动化管道

stpipeline的Python项目详细描述


st管道包含处理所需的工具和脚本 并分析由空间转录组学生成的原始文件 方法以FastQ格式生成数据集以进行下游分析。 ST管道还可用于处理单个单元格数据 只要提供一个带有标识每个单元格的条形码的文件。 st管道还可以处理 或者没有umis。

ST管道已经过速度、稳健性和 易于使用与许多参数来调整所有设置。

需要以下文件/参数:

  • fastq文件(读取1,包含空间信息和umi 阅读包含基因组序列的2)
  • 用star生成的基因组索引
  • gtf或gff格式的注释文件(可选)
  • 包含条形码和数组坐标的文件
    (查看文件夹“ids”并选择正确的一个)。 基本上这个文件包含3列(条形码、X和Y)。 因此,如果您为该文件提供了标识输入单元格的条形码(例如), st管道可用于单单元数据。 此文件也是可选的。
  • 数据集的名称

ST管线有多个主要与修边有关的参数, 映射和注释,但通常默认值足够好。 您可以看到参数的完整描述 安装ST管道后,键入“st_pipeline_run.py–help”。

输入的fastq文件也可以用gzip/bzip格式给出。

基本上,st管道的作用是:

  • 质量微调(读取1和读取2):
    • 去除低质量底座
    • 健全性检查(读取相同长度、读取顺序等)
    • 检查质量umi(如果提供)
    • 删除用户定义长度的工件(polyt、polya、polyg、polyn和poly)
    • 检查AT和GC含量
    • 放弃至少有个基数的读操作,但上述任何检查都失败
  • 连续筛选e.x.rrna基因组(可选)
  • 用星形映射(只读2)
  • 用[TGAD](^ {A1})解复用(仅读取1)
  • 保持包含有效条形码且正确映射的读取(读取2)
  • 用htseq count(可选)注释读操作
  • 按条形码(点位置)和基因对带注释的读取进行分组,以获得读取计数
  • 在分组/计数中,只保留唯一分子(umi)。

您可以在documents workflow.pdf和workflow_extended.pdf中看到工作流的更详细的图形描述

输出将是计数矩阵(基因作为列,点作为行)。 包含转录本(读名、坐标、基因等)和json的bed文件 文件中包含有用的统计信息。 st管道还将输出包含有用信息的日志文件。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java字符串数组到字符数组   cmusphinx试图在有人用JAVA说话时让静止图像“说话”   java试图使用密钥侦听器   string如何在java中使用split()将段落拆分为正确的句子?   java阻止直接访问动态创建的文件   如何在Java中检查同一层次结构中的对象列表   java应用程序意图在启动时不为null   AndroidAnnotations SharedReferences中的java模拟链式方法调用   java如何处理这种多线程场景的问题?   java缓冲区与JVM外部不安全   java使用Spring SAML从https加载元数据   java在JDOQL中舍入一个值   java显示不匹配的字符串,正则表达式否定   数组Java接口及其实现   适用于web分析的java数据库?   SpringMVC问题中的java表单创建