为深度学习模型提供简单有效的基因组数据随机存取。
genomelake的Python项目详细描述
#基因组标记
[![Circleci](https://circleci.com/gh/kundajelab/genomelake.svg?style=svg)(https://circleci.com/gh/kundajelab/genomelake)[![覆盖状态](https://coveralls.io/repos/github/kundajelab/genomelake/badge.svg)(https://coveralls.io/github/kundajelab/genomelake)
在规定的卧床时间间隔内输入基因组基因组学信息。
-python 2.7或3.5
-bcolz
-cython
-numpy
-pybedtools
-pysam
>安装
克隆存储库并运行:python setup.py py install `
>安装
>开始:训练蛋白质dna结合模型的蛋白质dna结合模型
提取全基因组序列数据到GenomeLake数据源:
``python
从GenomeLake.backend导入extract_fasta_to_file
genome_fasta=“/mnt/data/annotations/by_release/hg19.grch37/hg19.genome.fa”
genome_data_directory=“/hg19_data_directory”
extract_fasta to_file(genome_fasta,基因组数据目录)
```
=iter(iterable)
尝试:
如果为真:
值=[]
对于范围内的n(批处理大小):
值+=(下一个(it),)
屈服值
除了停止迭代:
屈服值
定义生成输入和标签(间隔文件、数据源、批处理大小=128):
bt=pybedtools.bedtool(interval_file)
提取器=数组提取器(数据源)
间隔生成器=批处理程序(bt,批处理大小)
间隔生成器中的间隔批处理:
输入=提取器(间隔批处理)
标签=[]
间隔批处理:
标签。附加(float(interval.name))
labels=np.array(labels)
产生输入,labels
````
=“/examples/jund.hepg2.chr22.101bp_intervals.tsv.gz”
inputs_labels_generator=generate_inputs_and_labels(intervals_file,genome_data_directory)
model=sequential()
model.add(conv1d(15,25,input_shape=(101,4))
model.add(flatten())
model.add(密集(1,activation='sigmoid'))
model.compile(loss='binary_crossentropy',optimizer='adam',metrics=['accurity'])
model.fit_generator(inputs_labels_generator,步骤_per榍epoch=100)
```
这里是预期结果:
````
100/100[================]-7s-损失:0.0584-acc:0.9905
```
许可证
genomelake在bsd-3许可证下发布。详见“许可证”。
[![Circleci](https://circleci.com/gh/kundajelab/genomelake.svg?style=svg)(https://circleci.com/gh/kundajelab/genomelake)[![覆盖状态](https://coveralls.io/repos/github/kundajelab/genomelake/badge.svg)(https://coveralls.io/github/kundajelab/genomelake)
在规定的卧床时间间隔内输入基因组基因组学信息。
-python 2.7或3.5
-bcolz
-cython
-numpy
-pybedtools
-pysam
>安装
克隆存储库并运行:python setup.py py install `
>安装
>开始:训练蛋白质dna结合模型的蛋白质dna结合模型
提取全基因组序列数据到GenomeLake数据源:
``python
从GenomeLake.backend导入extract_fasta_to_file
genome_fasta=“/mnt/data/annotations/by_release/hg19.grch37/hg19.genome.fa”
genome_data_directory=“/hg19_data_directory”
extract_fasta to_file(genome_fasta,基因组数据目录)
```
=iter(iterable)
尝试:
如果为真:
值=[]
对于范围内的n(批处理大小):
值+=(下一个(it),)
屈服值
除了停止迭代:
屈服值
定义生成输入和标签(间隔文件、数据源、批处理大小=128):
bt=pybedtools.bedtool(interval_file)
提取器=数组提取器(数据源)
间隔生成器=批处理程序(bt,批处理大小)
间隔生成器中的间隔批处理:
输入=提取器(间隔批处理)
标签=[]
间隔批处理:
标签。附加(float(interval.name))
labels=np.array(labels)
产生输入,labels
````
=“/examples/jund.hepg2.chr22.101bp_intervals.tsv.gz”
inputs_labels_generator=generate_inputs_and_labels(intervals_file,genome_data_directory)
model=sequential()
model.add(conv1d(15,25,input_shape=(101,4))
model.add(flatten())
model.add(密集(1,activation='sigmoid'))
model.compile(loss='binary_crossentropy',optimizer='adam',metrics=['accurity'])
model.fit_generator(inputs_labels_generator,步骤_per榍epoch=100)
```
这里是预期结果:
````
100/100[================]-7s-损失:0.0584-acc:0.9905
```
许可证
genomelake在bsd-3许可证下发布。详见“许可证”。