撇号转换为\x92

corpus = set() for line in open("path\\to\\mycorpus.txt"): corpus.update(set(line.lower().split())) print corpus stoplist = set() for line in open("C:\\Users\\Pankaj\\Desktop\\BTP\\stopwords_new.txt"): stoplist.add(line.lower().strip()) print stoplist

set(['a', "where's", 'abc', 'for', 'of', 'system', 'lab', 'machine', 'applications', 'computer', 'survey', 'user', 'human', 'time', 'interface', 'opinion', 'response']) set(['let\x92s', 'ain\x92t', 'there\x92s'])

1条回答

网友

1楼 · 发布于 2024-05-19 21:14:42

窗口1252编码中的代码点92（十六进制）是Unicode代码点2019（十六进制），它是“右单引号”。这看起来非常像一个撇号，很可能是您在stopwords.txt中的实际字符，我从python在中的解释方式猜到，它是在windows-1252中编码的，或者是共享ASCII和’代码点值的编码。

'与'

编程相关推荐

javascript节点js require（）和Rhino Shell load（）之间的区别是什么？
While循环中的java If语句
java GXT如何在XTemplate中显示treeobject？
如何将黑白图像加载到二进制文件中？
java ORMLite不知道如何存储班级航班。扫描仪。modelFX。机场航空公司的AirlineFx。使用另一个类或自定义持久器
java组织。阿帕奇。德比。客户是SqlException JSP和JSTL查询
spring如何将clob数据分配给java变量
java从上的表获取数据（Spring）
javaphp使用Exec执行带有用户定义参数的Jar文件
java jsonschema2pojo：引用相同类型的对象

相关问题更多 >

编程相关推荐

热门问题

热门文章