为深度学习模型提供简单有效的基因组数据随机存取。

genomelake的Python项目详细描述


#基因组标记
[![Circleci](https://circleci.com/gh/kundajelab/genomelake.svg?style=svg)(https://circleci.com/gh/kundajelab/genomelake)[![覆盖状态](https://coveralls.io/repos/github/kundajelab/genomelake/badge.svg)(https://coveralls.io/github/kundajelab/genomelake)

在规定的卧床时间间隔内输入基因组基因组学信息。




-python 2.7或3.5
-bcolz
-cython
-numpy
-pybedtools
-pysam



>安装
克隆存储库并运行:python setup.py py install `



>安装

>开始:训练蛋白质dna结合模型的蛋白质dna结合模型
提取全基因组序列数据到GenomeLake数据源:
``python
从GenomeLake.backend导入extract_fasta_to_file

genome_fasta=“/mnt/data/annotations/by_release/hg19.grch37/hg19.genome.fa”
genome_data_directory=“/hg19_data_directory”
extract_fasta to_file(genome_fasta,基因组数据目录)
```

=iter(iterable)
尝试:
如果为真:
值=[]
对于范围内的n(批处理大小):
值+=(下一个(it),)
屈服值
除了停止迭代:
屈服值

定义生成输入和标签(间隔文件、数据源、批处理大小=128):
bt=pybedtools.bedtool(interval_file)
提取器=数组提取器(数据源)
间隔生成器=批处理程序(bt,批处理大小)
间隔生成器中的间隔批处理:
输入=提取器(间隔批处理)
标签=[]
间隔批处理:
标签。附加(float(interval.name))
labels=np.array(labels)
产生输入,labels
````

=“/examples/jund.hepg2.chr22.101bp_intervals.tsv.gz”
inputs_labels_generator=generate_inputs_and_labels(intervals_file,genome_data_directory)

model=sequential()
model.add(conv1d(15,25,input_shape=(101,4))
model.add(flatten())
model.add(密集(1,activation='sigmoid'))


model.compile(loss='binary_crossentropy',optimizer='adam',metrics=['accurity'])
model.fit_generator(inputs_labels_generator,步骤_per榍epoch=100)
```

这里是预期结果:
````
100/100[================]-7s-损失:0.0584-acc:0.9905
```

许可证
genomelake在bsd-3许可证下发布。详见“许可证”。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java当使用SAST工具时,为什么我们必须为编译语言(例如C/C++)使用“构建包装器”?   从C++调用java   java在键入时重新存储单词   java Magnolia实例化模块类失败   为什么我可以在java的for循环中创建很少的文件对象   netbeans JAVA:将事件创建为单独的程序。。。可能吗?   标准不使用java关键字的目的是什么?   java如何将列表计数与单个整数值进行比较?   编写谓词练习JAVA技能   Java 8中是否有Scala的等价物?   java有人能指出这段代码的错误吗?这是一个卡片重绘程序,但由于某些原因,一些卡片会重复   java使驱动程序“通用”   java如何在Hibernate中删除多个关联而不实际删除对象