我有一个包含字符串的data frame
。
我想把字符串分为3类:
我从清除所有标点符号并将文本转换成小写开始清理数据。你知道吗
示例:
list = ["dog name", "dog age", "dog breed"]
对于第一类中的内容,其字符串应如下所示:
"dog name dog age dog breed".
或
"dog age dog name"
对于第二类中的某个对象,其字符串如下所示:
"dog name suzie dog age 4 dog breed pug"
或
"dog name suzie dog breed pug"
对于第三类中的某个对象,其字符串如下所示:
"my dogs name is suzie and she is a pug who is 4 years old"
有没有关于如何分组的建议?你知道吗
谢谢:)
这是你的伪代码。你知道吗
记住原始字符串
orig
。你知道吗从字符串中删除列表中的所有短语,并将结果放入
new
。你知道吗如果
orig
==new
,则属于类别3。你知道吗否则,如果
new
为空,则为类别1。你知道吗否则,你有第二类。你知道吗
使用
new= re.sub(r'\b(' + r'|'.join(list) + r')\b', orig)
替换所有短语,将单词边界带入帐户。(尽管您确实不想调用变量list
,因为这会影响Python的内置类型。)相关问题 更多 >
编程相关推荐