使用正则表达式通过带前缀的逗号拆分字符串

网友

1楼 · 编辑于 2024-09-24 02:19:35

假设我们可以将问题表述为希望找到任意一个或多个空格分隔的单词序列，我们可以尝试使用re.findall：

inp = ["X abc, abd.", "X abc, abd, abcd.", "X abc abd, abc.", "X asdas, asdasd, adsasda, asdasda.", "X asdas asdasda, asdasdas asdasda, asdasdasas, asdasddas."]
for i in inp:
    matches = re.findall(r'(?<=.)\w+(?: \w+)*', i)
    print(matches)

这张照片是：

['abc', 'abd']
['abc', 'abd', 'abcd']
['abc abd', 'abc']
['asdas', 'asdasd', 'adsasda', 'asdasda']
['asdas asdasda', 'asdasdas asdasda', 'asdasdasas', 'asdasddas']

网友

2楼 · 编辑于 2024-09-24 02:19:35

这是一种仅使用正则表达式实现所需的方法：

import re

lst = ['X abc, abd.',
       'X abc, abd, abcd.',
       'X abc abd, abc.',
       'X asdas, asdasd, adsasda, asdasda.',
       'X asdas asdasda, asdasdas asdasda, asdasdasas, asdasddas.']

[re.split(", ", re.search("X\s(.*)\.", i).group(1)) for i in lst]

此方法使用部分正则表达式：

import re

lst = ['X abc, abd.',
       'X abc, abd, abcd.',
       'X abc abd, abc.',
       'X asdas, asdasd, adsasda, asdasda.',
       'X asdas asdasda, asdasdas asdasda, asdasdasas, asdasddas.']

[[j.strip() for j in re.split(",", i.strip("X."))] for i in lst]

网友

3楼 · 编辑于 2024-09-24 02:19:35

最简单的方法不是使用正则表达式，而是使用一个简单的python脚本：

strings = ["X abc, abd.", "X abc, abd, abcd.", "X abc abd, abc.", "X asdas, asdasd, adsasda, asdasda.", "X asdas asdasda, asdasdas asdasda, asdasdasas, asdasddas."]

def split_words(list_of_strings):
    words_per_string = []
    
    for idx, s in enumerate(list_of_strings):
        words_per_string.append([])
        # remove X and first whitespace
        s = s[2:]
        splitted = s.split(",")
        for words in splitted:
            words_per_string[idx].append(words.strip())
            
    return words_per_string

split_words(strings)

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用正则表达式通过带前缀的逗号拆分字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >