删除python中第一个实例后的字符串字符

1. NC_002523_1 Serratia entomophila plasmid pADAP, complete sequence. 2. NZ_CM003366_0 Pantoea ananatis strain CFH 7-1 plasmid CFH1-7plasmid2, whole genome shotgun sequence. 3. NZ_CP014491_0 Escherichia coli strain G749 plasmid pG749_3, complete sequence. 4. NC_015062_0 Rahnella sp. Y9602 plasmid pRAHAQ01, complete sequence.

2条回答

网友

1楼 · 编辑于 2024-09-29 17:10:03

使用正查找确保点前面有一个数字-sep='(?<=\d)\.|\t'

例如：

import pandas as pd
import io

columns = ["Rank", "ID", "Description"]

sighits_section = '''1. NC_002523_1\tSerratia entomophila plasmid pADAP, complete sequence.
2. NZ_CM003366_0\tPantoea ananatis strain CFH 7-1 plasmid CFH1-7plasmid2, whole genome shotgun sequence.
3. NZ_CP014491_0\tEscherichia coli strain G749 plasmid pG749_3, complete sequence.
4. NC_015062_0\tRahnella sp. Y9602 plasmid pRAHAQ01, complete sequence.'''.splitlines()

tab = pd.read_table(io.StringIO(u'\n'.join([row.rstrip('.') for row in sighits_section])),
                    sep='(?<=\d)\.|\t',
                    engine='python',
                    names=columns)

print(tab)

印刷品

^{pr2}$

为了安全起见，您可能希望在点旁边添加空格作为分隔符-sep='(?<=\d)\.\s|\t'-以减轻在描述中出现10.1的情况。这可不是防弹的。在

更安全的是，当您一次只处理一行数据时，您可以使用sep='(?<=^\d)\.\s|\t'添加一个断言，即数字也是字符串中的第一个字符。但是，这将在高于10的数字上崩溃。在

网友

2楼 · 编辑于 2024-09-29 17:10:03

幼稚的方法

除第一次出现外，每隔.替换

line = "4. NC_015062_0  Rahnella sp. Y9602 plasmid pRAHAQ01, complete sequence."
count = line.count(".")
line = line[::-1].replace(".", "", count-1)[::-1]

这是一条单行线

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章