使用str.提取物论弦与积分

2024-09-30 01:25:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我以前也问过类似的问题Split multi delimiter columns into multiple column

当前问题
df
Unique
3:107912234-107912321(-):Cep290
4:107913333-107913322(+):Myra1
Y:222002110-221002100(+):Znpl1
MT:34330044-343123232(-):Brca2
X:838377373-834121212(+):AC007040.11

使用的代码无效

^{pr2}$

输出

^{3}$

问题

我怎么才能把最后一个字符串,基本上是基因名,找到元素的可能性有哪些

genename[. or -][numbers]
genename[numbers]

Tags: columnsdfcolumnmultiplemultisplituniquedelimiter
1条回答
网友
1楼 · 发布于 2024-09-30 01:25:24

这个正则表达式可以解决这个问题

df['Unique'].str.extract('(?P<chr>.*):(?P<start>\d+)-(?P<end>\d+)\((?P<strand>.*)\):(?P<gene_n>.*)')

你得到了

^{pr2}$

您的解决方案不是处理strand的右括号,在本例中,gene_n是字符和数字的混合。另外,处理字母数字的最好方法是\w+,[A-Za-z]d+不能像其他人指出的那样工作

相关问题 更多 >

    热门问题