Python如何删除子字符串中的所有字符（包括关键字）

2条回答

网友

1楼 · 编辑于 2024-06-26 02:21:29

如果你需要遵守诺言，你可以使用

reuters2['story_text'].str.replace(r'(?s)^.*?(?=\(Reuters\)\s*-)', '')

如果你不需要保留单词，你可以使用

reuters2['story_text'].str.replace(r'(?s)^.*?\(Reuters\)\s*-\s*', '')

或者，像这样使用Series.str.split：

import pandas as pd
df = pd.DataFrame({'story_text':['Some rubbish ... (Reuters) - Text']})
df['story_text'].str.split(r'\(Reuters\)\s*-', n=1).str[-1]
# => 0     Text

详细信息

(?s)-DOTALL修饰符，使.匹配任何字符
^-字符串的开头
.*?-任何0个或更多字符尽可能少
\(Reuters\)-文字(Reuters)文本
(?=\(Reuters\)\s*-)-与紧跟(Reuters)、0+空格和-的位置匹配的正向前瞻
\s*-\s*--用0+空格括起来

见regex demo #1和regex demo #2

split解决方案使用一个简单得多的正则表达式，\(Reuters\)\s*-并将字符串拆分为两部分（因为n=1是定义的，n是拆分的数量），并且.str[-1]获取最后一个（这里的第二个）项

网友

2楼 · 编辑于 2024-06-26 02:21:29

就在上面.split()

parts = starting_string.split("Reuters", 1)  # split at most once
story = parts[-1]  # get the last part

范例

>>> s = "blah blah Reuters bulk of the story"
>>> s.split("Reuters", 1)
['blah blah ', ' bulk of the story']
>>> "missing the newsgroup!".split("Reuters", 1)
['missing the newsgroup!']
>>> ["start", "end"][-1]
'end'
>>> ["bulk without splitword"][-1]
'bulk without splitword'

在分割目标周围添加空格或其他字符也会有所帮助

总而言之：

>>> s = "blah blah Reuters bulk of the story"
>>> s.split(" Reuters ", 1)[-1]
'bulk of the story'

您可能需要对可能出现的情况做一些额外的验证，即您的拆分字符串并没有在标题中没有的文章中简单地提到。也许很简单，如果有两个部分，第二部分比第一部分长，最多N个字符

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python如何删除子字符串中的所有字符（包括关键字）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >