如何使用Python读取excel Unicode字符

3条回答

网友

1楼 · 编辑于 2024-10-02 12:24:56

在Python2.x中使用UTF-8编码的Unicode数据时，这是一个常见的问题。在2.4和2.7之间的一些地方，对这一问题的处理已经发生了变化，所以突然出现错误也就不足为奇了。

错误的来源是print：在Python 2.x中，print不尝试假设终端支持什么编码。它只播放save并假设ascii是唯一受支持的字符集（这意味着0到127之间的字符可以，其他所有字符都会出错）。

现在将COMObject转换为字符串。str对于Python 2.x来说只是一堆字节（值0到255）。它没有编码。

把两者结合起来是个麻烦。当Python打印时，它试图验证输入（字符串）并突然发现UTF-8编码字符（UTF-8添加这些奇怪的\xe1标记，这些标记告诉解码器下一个字节在某种程度上是特殊的；check Wikipedia for the gory details）。

这时ascii编码器说：对不起，在那里帮不了你。

这意味着您可以使用这个值，比较它和这样的值，但是您不能print它。解决打印问题的一个简单方法是：

s = str(cell_value) # Convert COM -> UTF-8 encoded string
print repr(s) # repr() converts anything to ascii

如果您的终端支持UTF-8，那么您需要告诉Python：

import sys
import codecs

sys.stdout = codecs.getwriter('utf8')(sys.stdout)

您还应该看看sys.stdout.encoding，它告诉Python当前认为输出编码是/应该是什么。当Python2被正确配置（如在现代Linux发行版上）时，应该自动使用正确的输出编解码器。

相关：

网友

2楼 · 编辑于 2024-10-02 12:24:56

What is described here is a hack, you should not use as a long term solution. Looking at the comments it could crush the terminal.

最后，我找到了一个解决方案，这个方案是由@Huan YuTseng提供的，可能其他人提供的解决方案可以在其他环境中工作，但在这个环境中不行。

所以，发生的事情是我从EclipseJuno版本迁移到了liclipseDirect包（我没有升级下载的Eclipse版本）。

默认情况下，在我的LiClipse版本（1.4.0.201502042042）中，控制台输出默认不是utf-8。所以我需要更改LiClipse的输出或者使用我的代码。第四，还有一个问题和一个类似的问题有关，它帮助了我。您可以看到更多的细节here，但实际上您需要做的是在代码开始时包括以下代码：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

一切正常。在来自@AarongDigulla的答案中，解决方案是存在的，但实际上是最后一个解决方案。

但是，我需要说，LiClipse在sys.setdefaultencoding语句上给了我一个错误，即在执行期间没有创建任何问题。。。不知道发生了什么。这让我以前无法测试这个解决方案。可能是LiClipse出错了（让我执行有错误的代码！）

网友

3楼 · 编辑于 2024-10-02 12:24:56

.Cells(row,col)返回一个Range对象。您可能需要单元格中的文本：

cell = xl.ActiveSheet.Cells(1,2).Text

或者

cell = xl.ActiveSheet.Range('B1').Text

结果值将是Unicode字符串。要转换为可以写入文件的字节，请使用.encode(encoding)，例如：

bytes = cell.encode('utf8')

以下示例使用以下电子表格：

enter image description here

import win32com.client
xl = win32com.client.gencache.EnsureDispatch('Excel.Application')
xl.Workbooks.Open(r'book1.xlsx')
cell = xl.ActiveSheet.Cells(1,2)
cell_value = cell.Text
print repr(cell)
print repr(cell_value)
print cell_value

输出（注意，只有当控制台/IDE支持这些字符时，才会打印中文）：

<win32com.gen_py.Microsoft Excel 14.0 Object Library.Range instance at 0x129909424>
u'\u4e2d\u56fd\u4eba'
中国人

相关问题更多 >

编程相关推荐

热门问题

热门文章