Python中文
首页
教程
问答
标签
搜索
登录
注册
复杂的python正则表达式
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有很多这样的台词:</p> <pre><code>EWSR1{ENST00000397938}:r.1_1364_FLI1{ENST00000429175}:r.1046_3051 EML4{ENST00000318522}:r.1_929_EML4{ENST00000318522}:r.903+188_903+220_ALK{ENST00000389048}:r.4080_6220 FUS{ENST00000254108}:r.1_(608)_FUS{ENST00000254108}:r.(819)_937_DDIT3{ENST00000547303}:r.76_872 TCF3{ENST00000262965}:r.1_1795_ins27_PBX1{ENST00000420696}:r.454_6636 EML4{ENST00000318522}:r.?_ALK{ENST00000389048}:r.? </code></pre> <p>我需要这样的输出:</p> <p>对于第一个:</p> <pre><code>EWSR1 ENST00000397938 1 1364 FLI1 ENST00000429175 1046 3051 </code></pre> <p>对于第二个:</p> <pre><code>EML4 ENST00000318522 1 929 EML4 ENST00000318522 903+188 903+220 ALK ENST00000389048 4080 6220 </code></pre> <p>第三个:</p> <pre><code>FUS ENST00000254108 1 (608) FUS ENST00000254108 (819) 937 DDIT3 ENST00000547303 76 872 </code></pre> <p>第四个:</p> <pre><code>TCF3 ENST00000262965 1 1795 ins27 PBX1 ENST00000420696 454 6636 </code></pre> <p>第五个:</p> <pre><code>EML4 ENST00000318522 ? ALK ENST00000389048 ? </code></pre> <p>我有数百万行,所以我想想出一个正则表达式为这个,但我不能。我创建了一个条件正则表达式,但我确信有一个更优雅更简单的方法。有人能告诉我一个更简单的方法吗?你知道吗</p> <p>我现在的解决方案:</p> <pre><code>import re import sys string = sys.argv[1] if '+?' in string or '-?' in string or not "?" in string: for i in re.findall('\w*?\{.*?\}:r\.[\(\)\?\+\-\d]*_[\(\)\?\+\-\d]*', string): if 'ins' in i: print(re.findall('ins[A-Za-z0-9]*', i)[0]) i = re.sub('ins[A-Za-z0-9]*', "", i) print(i.lstrip('_').split('{')[0], re.findall('\{(.*?)\}', i.lstrip('_'))[0], " ".join(i.lstrip('_').split('r.')[-1].split('_'))) else: for i in re.findall('\w*?\{.*?\}:r\.\?', string): if 'ins' in i: print(re.findall('ins[A-Za-z0-9]*', i)[0]) i = re.sub('ins[A-Za-z0-9]*', "", i) print(i.lstrip('_').split('{')[0], re.findall('\{(.*?)\}', i.lstrip('_'))[0], " ".join(i.lstrip('_').split('r.')[-1].split('_'))) </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>第一次拆分为“?=[a-zA-Z]”。然后用“[}{:.\r]”拆分</p> <pre><code>import re with open('file.txt') as f: for l in f: print "\n".join(map(lambda x:" ".join(re.split(r'[}{:._r]',x)),re.split(r'_(?=[a-zA-Z])',l.strip('\n'))))+'\n' </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
尽管Python中的所有内容都是引用,为什么Python导师在没有指针的列表中绘制字符串和整数?
5 回答
尽管python中的表达式为false,但循环仍在运行
4 回答
尽管python代码正确,但从nifi ExecuteScript处理器获取语法错误
5 回答
尽管Python在Neovim中工作得很好,但插件不能识别Neovim中的Python主机
2 回答
尽管python字典包含了大量的条目,但它并没有增长
4 回答
尽管python说模块存在,为什么我会得到这个消息?
4 回答
尽管setuptools和控制盘是最新的,但无法识别singleversionexternallymanaged
9 回答
尽管stdout和stderr重定向,但未捕获错误消息
6 回答
尽管Tensorboard的事件太大,但Tensorboard的步骤太少了
3 回答
尽管tkinter上的变量已更改,但显示未更改
2 回答
尽管try/except使用Python进行单元测试时出现断言错误
3 回答
尽管URL是sam,但仍会抛出“达到最大重定向”
7 回答
尽管url有效,Pandas仍读取url的\u csv错误
7 回答
尽管while中存在时间延迟,但LINUX线程的CPU利用率为100%(1)
9 回答
尽管x0在范围内,Scipy优化仍会引发ValueError
7 回答
尽管xpath正确,但使用selenium单击链接仍不起作用
5 回答
尽管下载了ffmpeg并设置了路径变量python,但没有后端错误
10 回答
尽管下载了i,但找不到型号“fr”
4 回答
尽管下载了plotnine包,但未获取名为“plotnine”的模块时出错
6 回答
尽管为所有行指定了权重,网格(0)仍不起作用
2 回答