Python polycracker包_程序模块 - PyPI

    docker run -it sgordon/polycracker-miniconda:1.0.2    source activate pCRACKER_p27    tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/    polycracker.py test_pipeline -env pCRACKER_p27

结果存储在test_results目录中。

要退出容器：

exit

请注意，如果要在Docker容器外检查结果，可能需要装入卷。

在Docker上下文中装入卷的详细信息不在本教程的范围。尽管如此，如果您的计算机上有一个analysis\u results目录并希望将结果从polycracker复制到该目录，然后您可以将上述命令修改为：

    docker run -v "$(pwd)"/analysis_results:/analysis_results -i -t sgordon/polycracker-miniconda:1.0.2    source activate pCRACKER_p27    tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/    polycracker.py test_pipeline -env pCRACKER_p27    cp -R test_results /analysis_results/

然后如上所述退出容器。结果应保存在分析结果/测试结果中子目录。您也可以在运行自己的数据时执行此安装。

您也可以使用此存储库根目录下的dockerfile来构建自己的docker映像。这方面的详细信息将在本页底部介绍。

手动conda安装所需的依赖项并在conda环境中运行。详情见下文手动条件详情依赖项的安装。

使用Docker在自己的数据上运行

编辑config_polycracker.txt（见下文）

流程将类似于测试数据，但值得注意的是，您将最少需要： 2。将有问题的fasta文件移到./fasta\u文件这可以通过如上所述将卷装入Docker容器来执行，如果感兴趣的输入fasta文件位于正在装入的目录中（例如，"analysis_results"），然后将fasta文件从挂载目录复制到./fasta\u files目录已经存在于容器中。

    docker pull sgordon/polycracker-miniconda:1.0.2    # assumes we have copied user input FASTA file into analysis_results directory that we will mount
    docker run -v "$(pwd)"/analysis_results:/analysis_results -i -t sgordon/polycracker-miniconda:1.0.2    source activate pCRACKER_p27    # copying user input FASTA file into fasta_files directory
    cp /analysis_results/[user FASTA file] ./fasta_files    polycracker.py run_pipeline -env pCRACKER_p27    cp -R analysisOutputs /analysis_results/

结果应该在./analysisoutputs/*/*子目录中。

有一个包含子序列初始簇的簇结果目录，以及包含信号放大后的最终簇的最终结果目录。

有时，信号放大可能会失败，因为过度侵略性的迭代征募kmers。不是亚基因组特异的，或者是对另一个亚基因组特异的。招募不当。在这种情况下，可以通过进入./analysisoutputs/*/*/bootstrap_*目录并查找包含fastas的extractedsubgenomes子目录来获得中间结果。

注意，提取的子基因组fasta文件仍然是"分块的"（在标准化过程中根据指定的子序列长度进行分割）。但包含与原始脚手架相关的位置信息。

在项目目录中的*html文件中找到聚类图。
可以使用polycracker.py plotpositions-h生成其他绘图，还有一些其他绘图实用程序。

专业提示：通过将已运行配置的部分设置为0而不是1，可以在各个部分重新运行/恢复管道。

pro-tip：使用命令polycracker.py number_repeat mers_per_subsequence查找每个分块基因组片段中存在的重复mer数量的直方图。文件另存为kmers_per_subsequence.png

如果此直方图在每个子序列中过于倾斜，以致于kmer计数过低，则选择：

减小kmer大小
增加块大小splitfastalinelength
降低低计数阈值
将PerfectMode设置为1
考虑将nonchunk=1添加到配置中
和/或实施更高的最小块大小。

非常重要！

如果没有足够的重复内容包含在子序列中，则很难对它们进行分类。在运行管道时，可以运行"kmers_per_subsequence.png"，以确定kmers穿过管道的频率子序列，然后调整相关参数。

使用nextflow运行polycracker管道的配置

polycracker本身是存储库根目录下的一个python模块，它包含命令行如上所述，可以单独访问的功能。

因为polycracker由许多单独的命令行函数组成，为了方便起见，我们提供了一个用nextflow工作流语言编写的管道用户。nextflow实现允许单个命令执行所有需要的D步进顺序。此工作流可通过以下方式访问测试数据：

polycracker.py测试管道

或如下所示，用于您自己的数据：

polycracker.py run_管道

工作流本身是polycracker_pipeline.nf，它现在位于polycracker子目录中。当前可能需要在 nextflow脚本本身，即要使用的cpu数量和内存资源的参数。这些参数当前设置为保守值，以便可以在一台6核、至少5GB内存的现代笔记本电脑。在较大的数据集上执行时需要增加这些资源设置。特别是，所需的内存资源可以根据正在分析的输入fasta序列的大小。参数可以在这些行上更改：

blastmemstr="导出Java选项='-xms5g-xmx"+blastmemory+"g'"

CPU要求以"CPU"为前缀的行指定，如下所示：

cpu={writekmer==1？6:1}

多拍配置文件设置

在根目录中提供的配置文件存储库是"config_polycracker.txt"。

控制单个功能和第三方资源量的参数程序在配置文件中设置。请按以下说明修改以适合您的fasta 输入如下。

文件路径： 将输入的fasta文件（包含所有序列的单个fasta文件）复制到fasta_files目录中。您也可以修改fasta path到相应fasta输入文件的路径。您可以保留示例配置中提供的其他路径。 fasta文件必须以.fa或.fasta文件扩展名结尾，否则将无法识别它们。

    blastPath = ./blast_files/    kmercountPath = ./kmercount_files/    fastaPath = ./test_data/test_fasta_files/    bedPath = ./bed_files/

基因组： 输入fasta文件的完整文件名（不是完整路径）。
SGE解释器： 除非使用sge或slurm集群，否则将local设置为1。我们目前没有记录如何使用 sge或slurm多节点集群，但有经验的用户可以自己尝试。
使用bbtools: 请将此设置保留为1。
围绕预期子基因组数量的设置： 推荐做法，尺寸数量>；亚基因组数量。相应地修改。例如，如果预期的子基因组数目是2，则将n_维度设置为3。
FASTA标准化 把法斯塔分成几块。这决定了输入fasta的子序列的长度。分成。这对于规范化分析的子序列是必要的。这是典型的介于30000和1000000之间的值，但取决于输入fasta文件中序列的长度。我们建议将其作为起始值：

    splitFasta = 1    preFilter = 0    splitFastaLineLength = 50000

kmer计数设置 "kmerlength"是一个重要参数，可能需要根据分析进行调整。 "kmer_low_count"、"use_high_count"、"kmer_high_count"用于控制在分析。"kmer_low_count"确定哪些kmer被视为"重复"。 "使用高计数"，"kmer高计数"限制在fasta中高频使用kmer。我们建议这些初始设置：

    writeKmer = 1    kmerLength = 26    kmer2Fasta = 1    kmer_low_count = 30    use_high_count = 0    kmer_high_count = 2000000    sampling_sensitivity = 1

使用原始基因组进行最终分析输出 通常这将设置为零。

**将kmers重新定位到基因组，并将结果转化为聚类矩阵。指定的内存使用选项。 "blastmemory"是一个重要的资源设置。将此值设置为你想用。在笔记本电脑上，我们推荐以下设置：

    writeBlast = 1    k_search_length = 13    runBlastParallel = 0    blastMemory = 5    blast2bed = 1    generateClusteringMatrix = 1    lowMemory = 0    minChunkSize = 50000    removeNonChunk = 1    minChunkThreshold = 0    tfidf = 1    perfect_mode = 0

在更大的单节点群集上，需要增加内存设置。 "removenonchunk"排除序列小于指定的"minChunkSize"。

转换和群集数据： 两个关键的选择是使用哪种降维方法以及要使用的群集方法。 "降维技术"表示执行降维时要使用的方法关于稀疏子序列矩阵重复kmer。可用的降维器包括：

'kpca'：kernelpca，
"因子"：因子分析，
"特色"：特色聚集，
"lda"：最新的dirichletallocation和"nmf"：nmf。

这些方法的说明超出了本工作的范围。

"clusterMethods"指定使用的群集方法。
支持的方法有：

"光谱聚类"：光谱聚类，
"基因型"：基因型
"kmeans"：小批量kmeans，
"gmm"：高斯混合，
"bgmm"：巴耶桑加森混合体。

示例参数如下：

    transformData = 1    reduction_techniques = tsne    transformMetric = linear    ClusterAll = 1    clusterMethods = SpectralClustering    grabAllClusters = 1    n_neighbors = 20    metric = cosine    weighted_nn = 0    mst = 0

提取亚基因组：亚基因组重复kmer计数的启发式方法，以便判断子序列是否属于一个或另一个亚基因组。示例参数：

    docker run -it sgordon/polycracker-miniconda:1.0.2    source activate pCRACKER_p27    tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/    polycracker.py test_pipeline -env pCRACKER_p27

0
在自动nextflow管道外使用polycracker命令行功能。
polycracker是一个python模块，具有命令行可访问的功能。下一个流程运行管道脚本允许用户避免以串行方式运行单个函数用于亚基因组分类和提取的共同目的。
尽管如此，在某些情况下，个别核心和助手函数的执行很有用。
要查看命令行可用功能的完整列表：
docker run -it sgordon/polycracker-miniconda:1.0.2 source activate pCRACKER_p27 tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/ polycracker.py test_pipeline -env pCRACKER_p27
1
结果列表：
docker run -it sgordon/polycracker-miniconda:1.0.2 source activate pCRACKER_p27 tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/ polycracker.py test_pipeline -env pCRACKER_p27
2
要获取有关特定功能的信息，例如plotpositions:
docker run -it sgordon/polycracker-miniconda:1.0.2 source activate pCRACKER_p27 tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/ polycracker.py test_pipeline -env pCRACKER_p27
3
以上结果：
docker run -it sgordon/polycracker-miniconda:1.0.2 source activate pCRACKER_p27 tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/ polycracker.py test_pipeline -env pCRACKER_p27
4
在手动优化期间重新运行亚基因组分类和提取
在手动优化和故障排除的上下文中有两个直接相关的功能为：< > >
polycracker.py重置群集-h
结果：
docker run -it sgordon/polycracker-miniconda:1.0.2 source activate pCRACKER_p27 tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/ polycracker.py test_pipeline -env pCRACKER_p27
5
和
polycracker.py reset transform-h
结果：
docker run -it sgordon/polycracker-miniconda:1.0.2 source activate pCRACKER_p27 tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/ polycracker.py test_pipeline -env pCRACKER_p27
6
上述函数根据需要删除一些中间文件，以便能够成功地重新运行管道。
附加文档
有关设置配置文件和运行管道的其他提示，可以通过运行jupyter笔记本找到。/tutorials/running pipeline.ipynb
*关于每个配置参数的含义的信息都在这个笔记本中。强烈建议您查看此信息。
*/tutorials/old_configs中旧配置文件的其他示例
此处不包括其他下游分析，但请查看下面描述的HTML文件以获取更多命令。
访问其他帮助文档：
*下载存储库后，您可以在此处找到它们：./tutorials/help\u docs/index.html
*这是一个html文件，指定了一些polycracker命令。仍在更新中。
基因组比较工具和k-mer保存规则
polycracker的一个单独的实用程序没有在上面的文章中演示，它能够比较不同基因组/组装体之间k-mers的分布，并创建一个绘图/虚线应用程序以进行可视化。
要建立k-mers与基因组的矩阵，以便进行下游分析，请使用bio_hyp_class命令（-h）
*例如，nohup python polycracker.py bio_hyp_class-f../../，u，n-dk 5-w../。/results/-m 150-l 23-min 2-max 25>；../../analysis.log&；
然后有一些脚本可用于下游分析（这里没有详细说明集群等）。此方面将发布在另一份手稿中，正在准备中。
环境设置的详细说明
创建自己的Docker图像
（从提供的卷宗上e位于此存储库的根目录中。）
测试的DockerFile应在其当前状态下成功生成和运行。要生成图像：
docker run -it sgordon/polycracker-miniconda:1.0.2 source activate pCRACKER_p27 tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/ polycracker.py test_pipeline -env pCRACKER_p27
7
polycracker环境的conda安装方法
（请注意，Docker方法是首选的，而且容易得多。）
docker run -it sgordon/polycracker-miniconda:1.0.2 source activate pCRACKER_p27 tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/ polycracker.py test_pipeline -env pCRACKER_p27
8
通过运行polycracker对藻类基因组进行分类来测试conda环境
将存储库克隆到项目目录。
docker run -it sgordon/polycracker-miniconda:1.0.2 source activate pCRACKER_p27 tar -xzvf ./test_data/test_fasta_files/algae.fa.tar.gz && mv algae.fa ./test_data/test_fasta_files/ polycracker.py test_pipeline -env pCRACKER_p27
9
更改cd[包含polycracker.py的git项目目录的根目录]
exit
0
tar-xzvf./test_data/test_fasta_files/alga.fa.tar.gz&；mv alga.fa./test_data/test_fasta_files/
激活Conda环境
exit
1
polycracker.py test_pipeline-env[您的polycracker conda环境]。例如：
exit
2
结果存储在test_results目录中。
图库
示例图
对绿藻基因组coccomyxa sub椭球体和莱茵衣藻的反褶积
（绘制降维重复kmer矩阵的谱嵌入结果，在分类之前将基因组分成50kb子序列。）
将大四倍体烟草基因组中的序列分配给两个前体亚基因组
将大量六倍体面包小麦基因组中的序列分类为三个祖先亚基因组
示意图
由其包含的重复kmer链接的序列的多拍聚类的说明性示意图
标签：
test
基因组
data
分类
files
fasta
fa
多倍体
欢迎加入QQ群-->： 979659372
推荐PyPI第三方库
steptrace
运行python代码并打印正在运行的行
oidc-validators
验证OIDC令牌
GNotifier
通过gmail/gtalk发送通知的web服务
openfile
委托给适当的标准库函数的便利函数。
catnames
随意取猫的名字！
wireless-control
android的命令行无线控制工具。
Agile
python参数检查工具
drf-util
django rest框架实用程序
collective.dewslider
makina corpus在plone中添加dewlider flash slider
django-galleries
简单的Django画廊。
pip_helpers
使用'pip'安装等的帮助函数`
UWIGoPiGo
没有项目描述
oem-format-minimize-msgpack
OpenEntityMap-最小化消息包格式
datagator-api-client
SnapSearch的HTTP客户端库
neuralee
大规模单细胞数据的神经网络可扩展可视化

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
sgordon007
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
为什么在使用strptime时会出现未进行转换的数据错误？
为什么在使用strptim时会出现这个datetime日期错误
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
为什么在使用sum（）函数时会发生“int”对象不可调用的错误？
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”？
为什么在使用tabla时会得到一个空的数据帧？
为什么在使用tensorboard时需要add_graph（）的第二个参数？
为什么在使用TensorFlow Lite转换YOLOv4时，推断时间/大小没有改进？有什么可能的改进吗？
为什么在使用Tensorflow加载训练批时会出现内存泄漏？
为什么在使用tensorflow时会收到警告/错误（使用函数API，但未实现错误）
为什么在使用tetpyclient发出POST请求时出现403错误？
为什么在使用TextBlob时会出现HTTP错误？
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature？
为什么在使用timedelta格式化之后，我在python中的日期是错误的？
为什么在使用timeit或exec函数时，函数中的变量不会在提供的全局命名空间中搜索？

polycracker 1.0.3

polycracker的Python项目详细描述

快速摘要

多拍器可用于：

有关详细信息，请参阅Polycracker手稿预印本。如果您在工作中使用Polycracker，请引用以下文章。

Polycracker入门

基于miniconda的图像

根据测试数据运行polycracker

请注意，如果要在Docker容器外检查结果，可能需要装入卷。

更多测试数据：

使用Docker在自己的数据上运行

使用nextflow运行polycracker管道的配置

多拍配置文件设置

在自动nextflow管道外使用polycracker命令行功能。

在手动优化期间重新运行亚基因组分类和提取

附加文档

基因组比较工具和k-mer保存规则

环境设置的详细说明

创建自己的Docker图像

polycracker环境的conda安装方法

图库

示例图

对绿藻基因组coccomyxa sub椭球体和莱茵衣藻的反褶积

将大四倍体烟草基因组中的序列分配给两个前体亚基因组

将大量六倍体面包小麦基因组中的序列分类为三个祖先亚基因组

示意图

推荐PyPI第三方库

steptrace

oidc-validators

GNotifier

openfile

catnames

wireless-control

Agile

drf-util

collective.dewslider

django-galleries

pip_helpers

UWIGoPiGo

oem-format-minimize-msgpack

datagator-api-client

neuralee

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签