我有一个制表符分隔的文件,如下所示
chr1 12226559 12227059 TNFRSF1B
chr1 17051560 17052060
chr1 17053279 17053779
chr1 17338423 17338923 ATP13A2
ATP13A2
ATP13A2
chr1 19577574 19578074 EMC1
MRTO4
chr1 19578046 19578546 EMC1
MRTO4
chr1 19638239 19638739 AKR7A2
PQLC2
PQLC2
PQLC2
AKR7A2
PQLC2
我希望列4的值重复的行应该被删除。在
前三列是坐标,在这些坐标中,我们找到的东西都列出来了(在col4中),对于每个坐标,我只想有唯一的名称,而不是重复的名称。在
我想要这样的输出
^{pr2}$我尝试过的东西
^{3}$什么都不管用:(
请帮忙
谢谢你
如果文件中除了空格之外还有制表符,则可以将所有
[ ]
替换为[[:space:]]
。在简单
awk
脚本结果
^{pr2}$清洁
为了准备我的
input.txt
文件,我复制了问题中的文本。但我不得不用制表符代替空格。因此我使用了sed
命令。我还注意到一些尾随空格(在行尾)。最后,我使用以下sed
命令来清理输入文件:来自@dogbane comment的输入文件
(最后一行已追加)
清洁和加工
需求变更
不应打印具有
AKR7A2
的最后一行。因此,我们需要首先对input.txt
文件进行排序。注意:选项-t
用于引入一个制表符,在bash
或vi
上按[CTRL-V]
,然后[TAB]
(在该选项卡周围加引号)。在注意,现在有一行以
MRTO4
结尾!在你只需要
编辑:处理新输入
^{pr2}$相关问题 更多 >
编程相关推荐