一种无参考偏差校准RNAseq数据的软件包
RNA-APoGee的Python项目详细描述
RNA远地点
RNA远地点(RNA与个人基因组的比对)是一个在 最小化参考偏差。它还可以用于将RNA序列数据与单倍型解析的变体对齐。 目前,RNA远地点依赖于Olego对准器 也可以使用其他对准器。在
先决条件:
安装
pip install RNA-APoGee
命令行实用程序
校准包括两个步骤:
- 产生一个“个性化”的基因组 嵌入参考基因组的个体。在
- 对照参考基因和个人基因组(或两个单倍型)比对,然后合并 两组对齐方式可为每次读取选择最佳对齐方式。在
生成个人基因组
create_genomes
创建输入FASTA的版本,并替换特定于示例的snv
参考依据。在
如果有分阶段的变体,可以创建两个
VCF对应于每个单倍型的变体,然后创建
通过调用create_genomes
两次引用,每个单倍型一次
(不幸的是,目前这个脚本忽略了变体的阶段划分。)
create_genomes --fasta FASTA
--vcf VCF
--outdir OUTDIR
[--samples SAMPLES]
[--min_gq MIN_GQ]
[--chunk CHUNK]
--fasta FASTA FASTA file that will be used as the base for generating
personal genomes. For each sample in the input VCF, an
individual genome will be created by substituting the
sample's SNVs into this base FASTA. SNVs will be
considered only if the FILTER field is PASS, and the
genotype quality is greater than <min_gq>.
--vcf VCF VCF with variant calls. Can have multiple samples.
--outdir OUTDIR Personal genome for sample <sample> will be in
<outdir>/<sample>.fa
--samples SAMPLES (Optional) Comma separated list of samples from the input VCF. If
provided, only the personal genomes for these samples
will be created, otherwise personal genomes for all
samples in the input VCF will be created.
--min_gq MIN_GQ (Optional) Minimum genotype quality to consider a variant
--chunk CHUNK (Optional) How many bases to keep in memory. Reduce if running OOM.
对照参考文献和个人基因组比对
apogee
将RNA序列数据与个性化基因组对齐。每个读(或读对,以防
与两个fasta(对应于两个单倍型)对齐
或引用有或没有个人的变体)。那么每个人
读(或读对)选择两个FASTA的最佳对齐方式。这个
给出两个引用的顺序(即指定哪一个为
ref_fasta
和哪一个被指定为alt_fasta
)并不重要。注意
创建了大量中间文件。如果指定了tmp_dir
,则所有
中间文件将存储在那里,前缀与
输出BAM。在这种情况下,您可以删除该目录。如果
tmp_dir
未指定,将在同一个目录中创建一个临时目录
目录作为输出BAM,然后删除(因此所有中间文件都将丢失)。在
- 项目
标签: