Unicode · UTF-8
传统的字符编码方案,并无统一的标准,在多语言混合文本,常常会产生冲突。Unicode便是为了解决传统字符编码方案的局限而产生的。Unicode最常用的是用两个字节表示一个字符。现代操作系统和大多编程语言都支持Unicode。处理英文时,用Unicode编码比ASCII编码要多出一倍的储存空间,于是就出现了UTF-8编码。UTF-8采用一种变长的编码方式,根据不同的数字大小编码成1-6个字节。常用的英文字母被编码成1个字节,汉字通常是3个字节。从unicode到uft-8并不是直接的对应,而是要过一些算法和规则来转换。
python的字符串编码
Python 2.7 默认的编码方式是 ASCII,即当直接使用''
、""
或者''' '''
来定义字符串时,采用的是 ASCII 的编码方式。定义Unicode 字符串则需要在前面添加u。字符串'xxx'
虽然是ASCII编码,但也可以看成是UTF-8编码,而u'xxx'
则只能是Unicode编码。
Python 3.x 字符串默认的编码方式为 Unicode,即'string'
和u'string'
等价。若要定义 ASCII 编码的字符串需在字符串前加b。
encode() · decode()
在操作字符串时,为避免乱码,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312')
,表示将gb2312编码的字符串str1转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('utf-8')
,表示将unicode编码的字符串str2转换成utf-8编码。