使用pandas read_cs时，将分隔符限制为仅某些制表符

C42TMACXX:5:2316:15161:76101 163 1 @<@DFFADDDF:DD NH:i:1 HI:i:1 AS:i:200 nM:i:0 C42TMACXX:5:2316:15161:76101 83 1 CCCCCACDDDCB@B NH:i:1 HI:i:1 nM:i:1 C42TMACXX:5:1305:26011:74469 163 1 CCCFFFFFHHHHGJ NH:i:1 HI:i:1 AS:i:200 nM:i:0

0 1 2 3 4 5 6 7 8 \ 0 C42TMACXX:5:2316:15161:76101 \t 163 \t 1 \t @<@DFFADDDF:DD \t NaN 1 C42TMACXX:5:2316:15161:76101 \t 83 \t 1 \t CCCCCACDDDCB@B \t NaN 2 C42TMACXX:5:1305:26011:74469 \t 163 \t 1 \t CCCFFFFFHHHHGJ \t NaN 9 10 11 12 13 14 0 NaN i:1 \t NaN NaN i:0 1 NaN i:1 \t nM:i:1 NaN None 2 NaN i:1 \t NaN NaN i:0

0 1 2 3 4 0 C42TMACXX:5:2316:15161:76101 163 1 @<@DFFADDDF:DD NH:i:1 HI:i:1 AS:i:200 nM:i:0 1 C42TMACXX:5:2316:15161:76101 83 1 CCCCCACDDDCB@B NH:i:1 HI:i:1 nM:i:1 2 C42TMACXX:5:1305:26011:74469 163 1 CCCFFFFFHHHHGJ NH:i:1 HI:i:1 AS:i:200 nM:i:0

1条回答

网友

1楼 · 发布于 2024-10-03 00:30:51

我快速浏览了一下pandas文档，似乎regex用作分隔符不能使用组。在

C42TMACXX:5:2316:15161:76101    163 1   @<@DFFADDDF:DD  NH:i:1  HI:i:1  AS:i:200    nM:i:0
C42TMACXX:5:2316:15161:76101    83  1   CCCCCACDDDCB@B  NH:i:1  HI:i:1  nM:i:1
C42TMACXX:5:1305:26011:74469    163 1   CCCFFFFFHHHHGJ  NH:i:1  HI:i:1  AS:i:200    nM:i:0
                              ^    ^  ^                ^

你只需要匹配前4个标签，但你不能不使用组。在

一个解决方案是使用lookaheads和lookbehind来隔离想要的\t。在

下面是一个应该有效的正则表达式：

(?<=\d)\t(?=\d)|\t(?=[A-Z@<:]{14})|(?<=[A-Z@<:]{14})\t

说明

(?<=\d)\t(?=\d)：前面是(?<=...)一个数字，后面是(?=...)一个数字的制表符

=>；匹配第一个和第二个选项卡

|或

\t(?=[A-Z@<:]{14})：后面紧跟14个连续字符的制表符@，@，<；或：

=>；匹配第三个选项卡

|或

(?<=[A-Z@<:]{14})\t：前面有相同14个字符集的制表符

=>；匹配第四个选项卡

Demo

Note
If you need to allow more characters in the 14 consecutive characters pattern, just add them to the set.

相关问题更多 >

编程相关推荐

热门问题

热门文章