拆分ascii/unicode字符串

3条回答

网友

1楼 · 编辑于 2024-06-23 02:49:19

你为什么不先解码这些字符串呢？在

Python 2：

decoded = unicode(data, 'utf-8')
# or
decoded = unicode(data, 'utf-16')

Python 3：

^{pr2}$

然后直接对不可知的数据进行编码，定界符总是一个空值。在

网友

2楼 · 编辑于 2024-06-23 02:49:19

Where, delimiter for utf-16 is '\x00'+'\x00' and delimiter for utf-8 is '\x00'

不完全是。UTF-16的分隔符是\0\0，仅在代码单元边界处。一个代码单元末尾的\0后跟另一个代码单元开头的\0不构成分隔符。ID3标准讨论字节“同步”意味着情况并非如此，但它是错误的。在

[旁白：不幸的是，许多标签读取工具确实是这样理解的，结果是任何带有双零字节的序列（例如UTF-16BE中的U+0100、U+0061Āa，或者，正如您所发现的，UTF-16LE中字符串末尾的任何ASCII）都会破坏帧。因此，UTF-16文本格式（UTF-16+BOM 0x01和UTF-16BE 0x02）完全不可靠，所有标记编写器都应避免使用。文本格式0x00对于任何东西都是不可靠的，除了纯ASCII。UTF-8是冠军！]在

如果您有一个编码结束字符串结构的列表，类似于为T帧（而不是TXXX）指定的结构，那么简单的方法是在U+0000终止符上拆分它们之前对它们进行解码：

def extractStrings(encoding_type, data):
    chars = data.decode(encoding_type)
    # chars is now a Unicode string, delimiter is always character U+0000
    return chars.split(u'\0')

如果data是一个完整的ID3帧，恐怕不能用单个的split()来处理它。除T系列以外的帧包含以编码结束的字符串、仅以ASCII结尾的字符串、二进制对象（没有终止）和整数字节/字值。APIC就是这样一个例子，但是对于一般情况，您必须事先知道要解析的每个帧的结构，并逐个使用每个字段，在执行过程中手动查找每个终止符。在

要在UTF-16编码的数据中找到与代码单元对齐的终止符而不误解Āa等，可以使用regex，例如：

^{pr2}$

这真的不是很有趣-ID3v2不是一个非常干净的格式。在我的头脑中，这是一种未经考验的方法：

p= FrameParser(data)
if frametype=='APIC':
    encoding= p.encoding()
    mimetype= p.string()
    pictype= p.number(1)
    desc= p.encodedstring()
    img= p.binary()

class FrameParser(object):
    def __init__(self, data):
        self._data= data
        self._ix= 0
        self._encoding= 0

    def encoding(self): # encoding byte - remember for later call to unicode()
        self._encoding= self.number(1)
        if not 0<=self._encoding<4:
            raise ValueError('Unknown ID3 text encoding %r' % self._encoding)
        return self._encoding

    def number(self, nbytes= 1):
        n= 0
        for i in nbytes:
            n*= 256
            n+= ord(self._data[self._ix])
            self._ix+= 1
        return n

    def binary(self): # the whole of the rest of the data, uninterpreted
        s= self._data[self._ix:]
        self._ix= len(self._data)
        return s

    def string(self): # non-encoded, maybe-terminated string
        return self._string(0)

    def encodedstring(self): # encoded, maybe-terminated string
        return self._string(self._encoding)

    def _string(self, encoding):
        if encoding in (1, 2): # UTF-16 - look for double zero byte on code unit boundary
            ix= re.match('((?!\0\0)..)*', self._data[self._ix:], re.DOTALL).end()
            s= self._data[self._ix:self._ix+ix]
            self._ix+= ix+2
        else: # single-byte encoding - look for first zero byte
            ix= self._data.find('\0', self._ix)
            s= self._data[self._ix:self._ix+ix] if ix!=-1 else self._data[self._ix:]
            self._ix= ix if ix!=-1 else len(self._data)
        return s.decode(['windows-1252', 'utf-16', 'utf-16be', 'utf-8][encoding])

网友

3楼 · 编辑于 2024-06-23 02:49:19

下面的代码符合我的要求

def splitNullTerminatedEncStrings(self, data, encoding_type, no_of_splits):
data_dec = data.decode(encoding_type, 'ignore')
chunks = data_dec.split('\x00', no_of_splits) 
enc_str_lst = []
for data_dec_seg in chunks[:-1]: 
    enc_str_lst.append(data_dec_seg.encode(encoding_type)) 
data_dec_chunks = '\x00'.join(chunks[:-1])   
if(data_dec_chunks): data_dec_chunks += '\x00'
data_chunks = data_dec_chunks.encode(encoding_type) 
data_chunks_len = len(data_chunks)
enc_str_lst.append(data[data_chunks_len:]) # last segment
return enc_str_lst

相关问题更多 >

编程相关推荐

热门问题

热门文章