Python中文
首页
教程
问答
标签
搜索
登录
注册
Python中的国际字符
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我目前正在开发一个Python脚本,它获取一个日志文件的列表(来自搜索引擎),并生成一个包含这些文件中所有查询的文件,以便以后分析。 这个脚本的另一个特点是它删除了最常见的单词,我也实现了,但是我遇到了一个我似乎无法克服的问题。只要查询不包含特殊字符,删除单词的操作就可以按预期进行。由于搜索日志是用丹麦语编写的,所以字符æ、å和å会定期出现。在</p> <p>在搜索主题时,我现在意识到我需要将这些编码为UTF-8,这是我在获取查询时所做的:</p> <pre><code>tmp = t_query.encode("UTF-8").lower().split() </code></pre> <p>t_query是一个查询,我将其拆分,以便稍后将每个单词与我的禁止词列表进行比较。如果不使用编码,我将得到错误:</p> ^{pr2}$ <p><strong>编辑:</strong>我也尝试使用解码,但得到以下错误:</p> <pre><code>UnicodeEncodeError: 'ascii' codec can't encode character u'\xa7' in position 3: ordinal not in range(128) </code></pre> <p>我会这样循环:</p> <pre><code>for i in tmp: if i in words_to_filter: tmp.remove(i) </code></pre> <p>如前所述,这对不包括特殊字符的单词非常有效。我尝试将I与当前禁止的单词一起打印,将得到例如:</p> <pre><code>færdelsloven - færdelsloven </code></pre> <p>其中第一个单词是tmp中的第i个元素。禁词中最后一个词。显然出了点问题,但我就是找不到解决办法。我尝试了很多在Google和这里找到的建议,但是到目前为止都没有任何效果。在</p> <p><strong>编辑2:</strong>如果有区别的话,我尝试过在使用和不使用编解码器的情况下加载日志文件:</p> <pre><code>with codecs.open(file_name, "r", "utf-8") as f_src: jlogs = map(json.loads, f_src.readlines()) </code></pre> <p>如果重要的话,我在Windows环境中运行python2.7.2。该脚本应该能够在其他平台(即Linux和macos)上运行。在</p> <p>如果你们中有人能帮我,我会非常感激的。在</p> <p>谨致问候 卡斯帕</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>如果正在读取文件,则需要<code>decode</code>它们。在</p> <pre><code>tmp = t_query.decode("UTF-8").lower().split() </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
2 回答
如何添加表示整数的擦边字符串?
9 回答
如何添加要在Bokeh中使用的新font.ttf文件?
5 回答
如何添加要显示的矩阵XY轴编号和XY轴
6 回答
如何添加计数?
8 回答
如何添加计数器函数?
7 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
9 回答
如何添加计数器来跟踪while循环中的月份和年份?
5 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
1 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
7 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
8 回答
如何添加评论拉梅尔亚姆
8 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
10 回答
如何添加谷歌地点自动完成到Flask?
10 回答
如何添加超时、python discord bot
1 回答
如何添加超过1dp的检查
6 回答
如何添加距离方法
2 回答
如何添加跟随游戏的敌人精灵
5 回答
如何添加路径以便python可以找到程序?
1 回答
如何添加身份验证/安全性以使用happybase访问HBase?
5 回答