删除dataframe一列中特定字符串后的所有字符

2024-09-27 21:24:22 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个数据框，其中PDF_文本列包含一个从PDF中提取的长文本字符串。每行代表一个不同的PDF文件

我想浏览PDF_文本一栏，每一栏只保留出现在“议员议案通知”或“通知议案”之后以及“新业务”或“新业务”之前的字符

作为第一步，我在通知安理会成员的动议之前拿出了所有东西：

df['PDF_text'] = df['PDF_text'].str.replace(r"^.+?(?=NOTICE OF COUNCIL MEMBERS MOTIONS)", "")

问题:

感谢您的帮助！编辑是因为我意识到我的第一个解决方案并没有完全满足我的要求

Tags：文件数据字符串 text 文本 df pdf 成员

1条回答

网友

1楼 · 发布于 2024-09-27 21:24:22

尝试使用str.extract：

>>> df["PDF_text"].str.extract(r'(?<=NOTICE OF COUNCIL MEMBERS MOTIONS)(.*?)(?=New Business)', re.IGNORECASE)

(?<=...)在第一个字符串前面的位置匹配（安理会成员动议通知）

(?=...)在后跟第二个字符串（新业务）的位置匹配

.*匹配beween中的所有内容