Python中文
首页
教程
问答
标签
搜索
登录
注册
Python/从文件中获取唯一的标记,但有一个例外
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我想找到一个文件中唯一令牌的数量。为此,我编写了以下代码:</p> <pre><code>splittedWords = open('output.txt', encoding='windows-1252').read().lower().split() uniqueValues = set(splittedWords) print(uniqueValues) </code></pre> <p>那个输出.txt文件如下:</p> <pre><code>Türkiye+Noun ,+Punc terörizm+Noun+Gen ve+Conj kitle+Noun imha+Noun silah+Noun+A3pl+P3sg+Gen küresel+Adj düzey+Noun+Loc olus+Verb+Caus+PastPart+P3sg tehdit+Noun+Gen boyut+Noun+P3sg karsi+Adj+P3sg+Loc ,+Punc tüm+Det ülke+Noun+A3pl+Gen yay+Verb+Pass+Inf2+Gen önle+Verb+Pass+Inf2+P3sg hedef+Noun+A3pl+P3sg+Acc paylas+Verb+PastPart+P3pl ,+Punc daha+Noun güven+Noun+With ve+Conj istikrar+Noun+With bir+Num dünya+Noun düzen+Noun+P3sg için+PostpPCGen birlik+Noun+Loc çaba+Noun göster+Verb+PastPart+P3pl bir+Num asama+Noun+Dat gel+Verb+Pass+Inf2+P3sg+Acc samimi+Adj ol+Verb+ByDoingSo arzula+Verb+Prog2+Cop .+Punc Ab+Noun ile+PostpPCNom gümrük+Noun Alan+Noun+P3sg+Loc+Rel kurumsal+Adj iliski+Noun+A3pl club+Noun toplanti+Noun+A3pl+P3sg Türkiye+Noun+Gen -+Punc At+Noun gümrük+Noun isbirlik+Noun+P3sg komite+Noun+P3sg ,+Punc Ankara+Noun Anlasma+Noun+P3sg+Gen 6+Num madde+Noun+P3sg uyar+Verb+When ortaklik+Noun rejim+Noun+P3sg+Gen uygula+Verb+Pass+Inf2+P3sg+Acc ve+Conj gelis+Verb+Inf2+P3sg+Acc sagla+Verb+Inf1 üzere+PostpPCNom ortaklik+Noun Konsey+Noun+P3sg+Gen 2+Num /+Punc 69+Num sayili+Adj karar+Noun+P3sg ile+Conj teknik+Noun komite+Noun mahiyet+Noun+P3sg+Loc kur+Verb+Pass+Narr+Cop .+Punc nispi+Adj nisbi+Adj görece+Adj+With izafi+Adj obur+Adj </code></pre> <p>通过这个代码,我可以得到唯一的标记,比如Türkiye+Noun,Türkiye+Noun+Gen。但是我想得到例如Türkiye+Noun,Türkiye+Noun+Gen,比如在+符号之前只有一个标记。我只想要蒂尔基耶的部分。最后,Türkiye+Noun和Türkiye+Noun+Gen标记必须是相同的,并且只能作为一个唯一的标记对待。我想我需要为此写正则表达式。你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>你可以拆分你现在在“+”上的所有代币,只取第一个。你知道吗</p> <pre><code>uniqueValues = set(map(lambda x: x.split('+')[0], splittedWords)) </code></pre> <p>这里我用地图。Map将函数(lambda部分)应用于splittedWords的所有值。你知道吗</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
尽管Python中的所有内容都是引用,为什么Python导师在没有指针的列表中绘制字符串和整数?
10 回答
尽管python中的表达式为false,但循环仍在运行
3 回答
尽管python代码正确,但从nifi ExecuteScript处理器获取语法错误
1 回答
尽管Python在Neovim中工作得很好,但插件不能识别Neovim中的Python主机
9 回答
尽管python字典包含了大量的条目,但它并没有增长
1 回答
尽管python说模块存在,为什么我会得到这个消息?
5 回答
尽管setuptools和控制盘是最新的,但无法识别singleversionexternallymanaged
1 回答
尽管stdout和stderr重定向,但未捕获错误消息
6 回答
尽管Tensorboard的事件太大,但Tensorboard的步骤太少了
6 回答
尽管tkinter上的变量已更改,但显示未更改
9 回答
尽管try/except使用Python进行单元测试时出现断言错误
4 回答
尽管URL是sam,但仍会抛出“达到最大重定向”
3 回答
尽管url有效,Pandas仍读取url的\u csv错误
6 回答
尽管while中存在时间延迟,但LINUX线程的CPU利用率为100%(1)
10 回答
尽管x0在范围内,Scipy优化仍会引发ValueError
3 回答
尽管xpath正确,但使用selenium单击链接仍不起作用
6 回答
尽管下载了ffmpeg并设置了路径变量python,但没有后端错误
5 回答
尽管下载了i,但找不到型号“fr”
10 回答
尽管下载了plotnine包,但未获取名为“plotnine”的模块时出错
4 回答
尽管为所有行指定了权重,网格(0)仍不起作用
8 回答