我有一个文本文件,我读了,是非常长的一个。每个文本文档都转换为一个字符串。这些文档中有情感标签,必须提取所有内容。我对你有意见关于芬德尔函数,当与字符串一起使用时,它工作得非常好,但是我的字符串包含特殊字符,这就是为什么我什么都没有得到的原因。例如:
string = ['yeah i\'ll get her going and and after you\'re done with your survey and stuff (00)\n<TRIGGER AFFECT="SURPRISED" SCALE="MEDIUM">oh</TRIGGER> okay (01)\n<TRIGGER AFFECT="CONFUSED" SCALE="LOW">okay</TRIGGER> ]
我必须找到<TRIGGER AFFECT="SURPRISED" SCALE="MEDIUM">
和</TRIGGER>
之间的所有单词。你知道吗
match = re.findall("<TRIGGER AFFECT="SURPRISED" SCALE="MEDIUM"> (.*?) </TRIGGER>",i)
print (match)
它不工作,我猜它与<
和"
有关,如果我对任何其他普通字符串使用相同的代码,它就会工作
修复引号,去掉regexp中输入字符串中不匹配的空格。对regexp使用原始字符串通常也是一个好主意。你知道吗
DEMO
相关问题 更多 >
编程相关推荐