用于通过多个模糊正则表达式操作解析NGS读取的命令行工具
itermae的Python项目详细描述
itermae公司
这是一个使用模式解析FASTQ格式读取的工具。 具体来说,它使用模糊正则表达式,因此模式允许 简并和使用序列,而不仅仅是位置,来解析读。 然后,它将重建SAM、FASTQ或FASTA文件流,以便管道传输到其他工具中 或其他文件。在
它几乎只是一个包装器来应用来自
^{
可用性、安装、“安装”
选项:
- 在
使用pip安装
itermae
,因此python3-m pip安装itermae
在 - 在
您可以克隆此repo,并在本地安装它。依赖项在
在requirements.txt
,所以python3 -m pip install -r requirements.txt
将安装这些。 但如果你不使用pip,那么你。。。你…吗。在 - 在
您可以使用Singularity来拉并运行 Singularity image of itermae.py, 所有的东西都已经安装好了。 这是推荐的用法。这个图像是用其他一些工具构建的, 像gawk、perl和parallel,使命令行咀嚼变得更容易。在
在
使用
itermae
被设想在一个管道中使用,在那里您刚刚得到
FASTQ读回,您需要解析它们。您可以使用zcat
来提供
将小块放入工具中,开发匹配、筛选和提取的操作
将正确的组集合到所需的输出。然后你把它包起来
parallel
并通过标准中的zcat
输入整个FASTQ文件。
这与较小的内存占用(调整块大小)并行,然后
你把它写到磁盘上(或者流到另一个工具中?)。在
做好一件事,对吧?在
查看demo/
中的jupyter笔记本,以及从中生成的HTML
相同的文件夹。这应该有一些例子和想法如何使用它。在
我相信我是唯一一个使用这个工具的人,所以如果你尝试过,请告诉我。 我很想知道这件事,并且非常乐意帮助你使用它 试着让它适应你的目标。在
哦,这是Linux/Unix机器上的BASH shell!我不知道怎么做 OSX/WindowsStuff工作正常。你不熟悉这个吗?如果你在 大学,问问你的图书管理员。如果没有,请在网上查找或使用 软件木工课程。或者在推特上跟我说。。。在
小心!在
输出组的形成和过滤只是使用eval
。这给了
灵活性,但远没有想到它会无处不在
在任何安全的地方。所以这是在你的命令行中使用的
电脑,不是面向网络或其他类似的东西。有责任心。在
- 项目
标签: