处理rna序列数据集的管道
baseqRNA的Python项目详细描述
#droprna
您将有一个可运行的命令“baseq drop”
+`whitelistdir`:indrop和10x的条形码白名单文件应该放在whitelistdir下。
这些文件可以从xxx下载。
+`cellranger\u ref<;genome>;`对基因进行读对齐和标记的关键过程是从开源的CellRanger管道(https://github.com/10xGenomics/CellRanger)中得到启发和借鉴的。
基因组索引和转录组的引用可以从https://support.10xgenomics.com/single cell gene expression/software/downloads/latest。
在配置文件中,cellrange引用的目录名为“cellranger”<;genome>;`。
配置记录在名为“config_drops.ini”的文件中:
[drops]
samtools=/path/to/samtools
star=/path/to/star
whitelistdir=/path/to/whitelist_file_directory
celllanger_hg38=/path/to/reference/refdata-celllanger-grch38-1.2.0/
process steps
1。`提取单元格条码“计数每种条码的数量;这将生成条码计数。<;sample>;.csv;
2。`单元格条形码校正和筛选`校正1bp不匹配的单元格条形码,以最小读取次数筛选条形码;
3.` split the reads of valid cell barcode`根据条形码的2BP前缀,原始对端原始读取被拆分为16个单端文件进行多处理;例如,我们将得到:split。<;sample>;<;aa at ac ag…gg>;.fq
4。` star alignment`fastq文件同时运行;生成按序列头排序的bam文件;
5。` reads taging`将读取对齐位置标记到相应的基因名
6。` genrating umi table `
run command
>主配置是:
>
++`--config `:配置文件;
++` `--genome/-g `:基因组版本;
++` ` ` ` `——协议`:[10x indrop dropseq]
` `--minreadreads`:条形码的最小读数
++` ` `--name/-n`:样本名称
>>>>>>+`--fq1/-1 `:read 1:read>+`--fq2/-2`:读取2
+`--top戋u million戋u reads`:要用多少次阅读,主要用于测试读取部分(默认为1000)的管道(默认为1000)
++`--dir/-d`:output path
如果您配置了“celllanger参考hg38”,您可以运行以下:
baseqdrops run_pipe--config/config\u drops.ini-g hg38-p 10x--minreads 10000-n 10x\u test-1 10x_1.1.fq.gz-2 10x.2.fq.gz.gz-d.//
;对于旧版本10x结果
单元条形码长度为15,umi长度为5。
baseqdrops run懔u pipe--config./config懔u drops.ini-g hg38-p 10x--minreads 10000-n 10x懔u test-1 10x懔u 1.1.fq.gz-2 10x.2.fq.gz-d。/
您将有一个可运行的命令“baseq drop”
+`whitelistdir`:indrop和10x的条形码白名单文件应该放在whitelistdir下。
这些文件可以从xxx下载。
+`cellranger\u ref<;genome>;`对基因进行读对齐和标记的关键过程是从开源的CellRanger管道(https://github.com/10xGenomics/CellRanger)中得到启发和借鉴的。
基因组索引和转录组的引用可以从https://support.10xgenomics.com/single cell gene expression/software/downloads/latest。
在配置文件中,cellrange引用的目录名为“cellranger”<;genome>;`。
配置记录在名为“config_drops.ini”的文件中:
[drops]
samtools=/path/to/samtools
star=/path/to/star
whitelistdir=/path/to/whitelist_file_directory
celllanger_hg38=/path/to/reference/refdata-celllanger-grch38-1.2.0/
process steps
1。`提取单元格条码“计数每种条码的数量;这将生成条码计数。<;sample>;.csv;
2。`单元格条形码校正和筛选`校正1bp不匹配的单元格条形码,以最小读取次数筛选条形码;
3.` split the reads of valid cell barcode`根据条形码的2BP前缀,原始对端原始读取被拆分为16个单端文件进行多处理;例如,我们将得到:split。<;sample>;<;aa at ac ag…gg>;.fq
4。` star alignment`fastq文件同时运行;生成按序列头排序的bam文件;
5。` reads taging`将读取对齐位置标记到相应的基因名
6。` genrating umi table `
run command
>主配置是:
>
++`--config `:配置文件;
++` `--genome/-g `:基因组版本;
++` ` ` ` `——协议`:[10x indrop dropseq]
` `--minreadreads`:条形码的最小读数
++` ` `--name/-n`:样本名称
>>>>>>+`--fq1/-1 `:read 1:read>+`--fq2/-2`:读取2
+`--top戋u million戋u reads`:要用多少次阅读,主要用于测试读取部分(默认为1000)的管道(默认为1000)
++`--dir/-d`:output path
如果您配置了“celllanger参考hg38”,您可以运行以下:
baseqdrops run_pipe--config/config\u drops.ini-g hg38-p 10x--minreads 10000-n 10x\u test-1 10x_1.1.fq.gz-2 10x.2.fq.gz.gz-d.//
;对于旧版本10x结果
单元条形码长度为15,umi长度为5。
baseqdrops run懔u pipe--config./config懔u drops.ini-g hg38-p 10x--minreads 10000-n 10x懔u test-1 10x懔u 1.1.fq.gz-2 10x.2.fq.gz-d。/