如何使C抛出解码异常?

2024-09-28 03:24:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我希望我的C应用程序(它有一个GUI)来帮助用户在“unicode(utf-8)”和“legacy(cp1252)”之间进行选择。我想给用户两个独立的真/假读数,关于文件是否可以“成功”(虽然不一定正确)以这两种格式读入而不损失细节。在

当我在C#中尝试以下操作时,它不起作用。也就是说,它似乎总是返回true,即使我在我知道包含非罗马字符的utf-8文本文件上调用它。在

[编辑:实际上,我不应该认为这会失败。可能是其中一个合理的成功,碰巧是不正确的,因为大多数(全部?)字节流也是有效的cp1252。测试另一个方向确实会发现utf-8无效,就像下面的Python代码一样。]

例如CanBeReadAs(“尼泊尔文.txt", 编码.GetEncoding(1252))应该返回false,但它返回true。在

public static bool CanBeReadAs(string filePath, Encoding encoding)
    {
        // make it strict:
        encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);
        using (var r = new StreamReader(filePath, encoding, false))
        {
            try
            {
                r.ReadToEnd();
            }
            catch (Exception e)
            {
                //swallow
                return false;
            }
        }
        return true;
    }

我也尝试过使用“string s=r.ReadToEnd();”来确保它确实被强制解码数据,但这似乎不会影响任何东西。在

我做错什么了?在

注意:如果我需要做任何特殊的事情来处理bom,也请告诉我。如果这很简单,我倾向于忽略它们。顺便说一句,我想这些文件都是纯unicode编码的

下面是我创建的一个Python脚本,它使用相同的策略并且运行良好:

^{pr2}$

Tags: 文件用户falsetrue编码stringunicodeutf
1条回答
网友
1楼 · 发布于 2024-09-28 03:24:36

通过Encoding类(Ascii、UTF8、Unicode等)提供的静态编码实例都尽力对输入字节进行解码,如果失败就不抛出。在

要创建具有特定编码/解码行为的编码,应使用Encoding.GetEncoding的重载,该重载接受EncoderFallback/DecoderFallback参数。我尝试创建各种编码(asciencecoding,UTF8Endcoding)的实例,但它们是只读的,因此设置fallback选项时总是抛出InvalidOperationException。在您的情况下,要创建在解码失败时抛出的实例,请尝试:

encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);

相关问题 更多 >

    热门问题