我有个问题要问你,亲爱的Python爱好者。在
我有一个语料库文件,如下所示:
Ah , this is greasy .
I want to eat kimchee .
Is Chae Yoon 's coordinator in here ?
Excuse me , aren 't you Chae Yoon 's coordinator ? Yes . Me ?
-Chae Yoon is done singing .
This lady right next to me ... everyone knows who she is right ?
我想为每个令牌分配一个特定的号码,并用文件上指定的号码替换它。在
我所说的token的意思是,基本上文件中由' '
分隔的每组字符。所以,例如,?
是一个令牌,而{
我有一个语料库文件,涉及超过400万行,如上所述。你能告诉我一个最快的方法吗?在
谢谢
使用
defaultdict
,我们可以记住我们看到的标记。每次我们看到一个新的令牌,我们就得到下一个数字并将其分配给该令牌。这会将输出写入另一个文件。在可能有点过头了,但您可以编写自己的分类器:
用法:
^{pr2}$为了减少写操作的次数,您可以在一个列表中累积行,并以一定的长度使用
writelines()
。在如果有足够的内存,可以读入整个文件并将其拆分,然后将其馈送给
Classifier
。在取消分类
对于python2.7,
super()
需要参数-将super()
替换为super(Classifier, self)
。在如果您主要使用字符串作为令牌编号,那么在类中,当保存时,您应该将
self.n
转换为字符串,那么您就不必在工作代码中的字符串和int之间来回转换。在您还可以使用sklearn的^{} 。在
如果已经有特定的字典来更改值,则只需映射新值。在
如果您想创建一个全新的词典:
^{pr2}$相关问题 更多 >
编程相关推荐