环境: -Mac OS优胜美地 -Python 2.7 -我正在读取的文件文件以txt格式保存
所以我有一个脚本,把中文文本分成句子,下面是代码:
# coding: utf-8
cutlist ="。!?".decode('utf-8')
def FindToken(cutlist, char):
if char in cutlist:
return True
else:
return False
def Cut(cutlist,lines):
l = []
line = []
for i in lines:
if FindToken(cutlist,i):
line.append(i)
l.append(''.join(line))
line = [] =
else:
line.append(i)
return l
for lines in file("t.txt"):
l = Cut(list(cutlist),list(lines.decode('gbk')))
for line in l:
if line.strip() !="":
li = line.strip().split()
for sentence in li:
print sentence
有人能给我一些关于是什么导致这个错误的指导吗?谢谢!在
因此,我将decode改为utf-8,如下所示:
它现在起作用了。在
相关问题 更多 >
编程相关推荐