Python编码NLTK'charmap'编解码器无法编码ch

2024-10-03 23:30:30 发布

您现在位置:Python中文网/ 问答频道 /正文

   import pypyodbc
   from pypyodbc import *
   import nltk 
   from nltk import *
   import csv
   import sys
   import codecs
   import re

   #connect to the database 
   conn = pypyodbc.connect('Driver={Microsoft Access Driver (*.Mdb)};\
          DBQ=C:\\TextData.mdb')

   #create a cursor to control the datbase with
   cur = conn.cursor()

   cur.execute('''SELECT Text FROM MessageCreationDate WHERE Tags LIKE 'GHS - %'; ''')
   TextSet = cur.fetchall()
   ghsWordList = []
   TextWords = list(TextSet)

   for row in TextWords :
       message = re.split('\W+',str(row))
       for eachword in message :
            if eachword.isalpha() :
               ghsWordList.append(eachword.lower())

   print(ghsWordList)

当我运行这段代码时,它会给我一个错误:

^{pr2}$

我在这里看到了许多其他类似问题的答案,并从google上搜了出来;然而,我对Python和字符编码还不够精通,不知道我需要在哪里使用Codecs模块来更改用于呈现/追加/创建列表的字符集?在

但这不仅有助于我更好地理解这一点吗?在


Tags: thetofromimportredriverconnectconn
1条回答
网友
1楼 · 发布于 2024-10-03 23:30:30

如果使用的是Python 2.x,请在代码中添加以下行:

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

注意:如果您使用的是python3.x,则reload不是内置的,而是内置的影响关系(),因此需要添加导入才能使我的解决方案正常工作。我不是用3.x开发的,所以我的建议是:

^{pr2}$

把这个放在你所有其他进口商品之前。在

相关问题 更多 >