Python包,用于延迟生成用于训练od-Keras模型的合成基因组序列。
keras-synthetic-genome-sequence的Python项目详细描述
Python包,用于延迟生成用于Keras模型训练的合成基因组序列。在
如何安装此软件包?在
像往常一样,只需使用pip下载:
pip install keras_synthetic_genome_sequence
使用示例
使用GapSequence训练你的keras模型 将需要获取 你打算在你的合成缺口中模拟生物缺口。在
为了实现这一点,这个包提供了一个名为 获取“差距”统计信息,它允许您获得 在给定的基因组组合中,间隙的平均值和协方差。在
基因组汇编自动从UCSC下载 使用ucsc_genomes_downloader, 然后提取其中包含的间隙,并提取它们的窗口 在过滤给定的 最大间隙大小,因为您可能希望将间隙大小限制为 一个相对较小的(差距可以达到数万个 例如端粒中的核苷酸)。在
首先列出所有重要参数:
^{pr2}$现在我们可以从检索差距统计数据开始:
fromkeras_synthetic_genome_sequence.utilsimportget_gaps_statisticsnumber,mean,covariance=get_gaps_statistics(assembly=assembly,max_gap_size=100,window_size=window_size)print("I have identified {number} gaps!".format(number=number))
现在你必须选择一个基本的事实来应用 合成间隙,例如 基因组组合hg19,染色体chr1。 这些地区将不得不被流苏化为更小的 与所选形状兼容的块 差距统计窗口大小。 我们可以按如下方式检索这些区域:
fromucsc_genomes_downloaderimportGenomefromucsc_genomes_downloader.utilsimporttessellate_bedgenome=Genome(assembly,chromosomes=["chr1"])ground_truth=tessellate_bed(genome.filled(),window_size=window_size)
获得的pandas数据帧将具有类似床的格式 如下所示:
chrom | chromStart | chromEnd | |
---|---|---|---|
0 | chr1 | 10000 | 10200 |
1 | chr1 | 10200 | 10400 |
2 | chr1 | 10400 | 10600 |
3 | chr1 | 10600 | 10800 |
4 | chr1 | 10800 | 11000 |
现在我们准备好实际创建GapSequence:
fromkeras_synthetic_genome_sequenceimportGapSequencegap_sequence=GapSequence(assembly=assembly,bed=ground_truth,gaps_mean=mean,gaps_covariance=covariance,batch_size=batch_size)
现在,有一个模型 输入和输出形状(批处理大小、窗口大小、4), 我们可以按如下方式进行训练:
model=build_my_denoiser()model.fit_generator(gap_sequence,steps_per_epoch=gap_sequence.steps_per_epoch,epochs=2,shuffle=True)
去噪快乐!在
生物分布与合成分布的比较
以下图片是关于生物分布和合成分布 考虑到hg19,hg38,mm9和mm10基因组装配中的缺口 缺口长度可达100个核苷酸,窗口总大小为1000个。 用于将多元高斯分布转换为整数的阈值 是0.4,这是python包中使用的默认值。在
- 项目
标签: