如何在相同的multiFASTA文件中连接序列，然后将结果打印到新的FASTA文件？

testFOR.id_AH004930.fasta >AH004930|2:1-128_Miopithecus_talapoin ATGA >AH004930|2:237-401_Miopithecus_talapoin GGGT >AH004930|2:502-580_Miopithecus_talapoin CTTTGCT >AH004930|2:681-747_Miopithecus_talapoin GGTG testFOR.id_M95099.fasta >M95099|1:1-90_Homo_sapien TCTTTGC >M95099|1:100-243_Homo_sapien ATGGTCTTTGAA

for FILE in *; do cat *.fasta| sed -e '1!{/^>.*/d;}'| sed ':a;N;$!ba;s/\n//2g' > output.fasta; done output.fasta >AH004930|2:1-128_Miopithecus_talapoin ATGAGGGTCTTTGCTGGTGTCTTTGCATGGTCTTTGAAGGTCTTTGAAATGAGTGGT...

2条回答

网友

1楼 · 编辑于 2024-10-02 16:21:18

我不确定我是否完全理解您的问题，但如果您只是想将多个文件中的内容连接到一个文件中，我相信下面的（Python）代码应该可以工作：

import os

input_folder = 'path/to/your/folder/with/fasta/files'
output_file = 'output.fasta'

with open(output_file, 'w') as outfile:
    for file_name in os.listdir(input_folder):
        if not file_name.endswith('.fasta'):  # ignore this
            continue
        file_path = os.path.join(input_folder, file_name)
        with open(file_path, 'r') as inpfile:
            outfile.write(inpfile.read())

网友

2楼 · 编辑于 2024-10-02 16:21:18

这可能适用于您（GNU-sed）：

sed -s '1h;/>/d;H;$!d;x;s/\n//2g' file1 file2 file3 ...

将-s设置为分别处理每个文件

复制第一行

删除包含>的任何其他行

将所有其他行附加到第一行

删除除最后一行之外的这些行

在文件末尾，切换到副本并删除除第一行以外的所有换行符

对所有文件重复此操作

非GNU SED的替代方案：

for file in *.fasta; do sed '1h;/>/d;H;$!d;x;s/\n//2g' "$file"; done

注意：MacOS sed可能需要放在脚本中，并使用-f选项调用，或者使用-e选项（减去;命令）将其拆分为多个部分，您的运气可能会有所不同

或许：

for file in file?; do sed $'1h;/>/d;H;$!d;x;s/\\n/@/;s/\\n//g;s/@/\\n/' "$file"; done

相关问题更多 >

编程相关推荐

热门问题

热门文章