查询pandas dataframe列中是否包含单词的文本短语

import pandas as pd
df = pd.Series(['a', 'b', 'c', 'some pieces delivered on time', 'all pieces not delivered', 'most pieces were never delivered at all', 'the pieces will never ever be delivered', 'some delivered', 'i received broken pieces'])

print("Baseline - Desired results SHOULD contain:\n", df.iloc[3:7])

# The following options all miss one or more rows from the desired results. 
# Just uncomment rgx = to run a regex. 
rgx = r'pieces\s(.*?)\sdelivered'
#rgx = r'pieces\s(\w*)\sdelivered'
#rgx = r'pieces\s(\w*)+\sdelivered'
#rgx = r'pieces\s(\w)*\sdelivered'
#rgx = r'pieces\s(\w+\s)+\sdelivered'
#rgx = r'pieces\s(.*)\sdelivered'
#rgx = r'pieces\s+((%s).*?)\sdelivered'

df2 = df[df.str.contains(rgx)]
print("\nActual results were:\n", df2)

Tags： to text from 文本 df all 单词 results

1条回答

网友

1楼 · 发布于 2024-10-03 21:27:43

第二个'\s'位置错误。只有在两个词不相邻时才需要：

df[df.str.contains(r'pieces\s(?:.+?\s)?delivered')]
#3              some pieces delivered on time
#4                   all pieces not delivered
#5    most pieces were never delivered at all
#6    the pieces will never ever be delivered

查询pandas dataframe列中是否包含单词的文本短语

相关问题更多 >

编程相关推荐

热门问题

热门文章

查询pandas dataframe列中是否包含单词的文本短语

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >