2017-04-09

python字符串编码

Unicode · UTF-8

传统的字符编码方案，并无统一的标准，在多语言混合文本，常常会产生冲突。Unicode便是为了解决传统字符编码方案的局限而产生的。Unicode最常用的是用两个字节表示一个字符。现代操作系统和大多编程语言都支持Unicode。处理英文时，用Unicode编码比ASCII编码要多出一倍的储存空间，于是就出现了UTF-8编码。UTF-8采用一种变长的编码方式，根据不同的数字大小编码成1-6个字节。常用的英文字母被编码成1个字节，汉字通常是3个字节。从unicode到uft-8并不是直接的对应，而是要过一些算法和规则来转换。

python的字符串编码

Python 2.7 默认的编码方式是 ASCII，即当直接使用''、""或者''' '''来定义字符串时，采用的是 ASCII 的编码方式。定义Unicode 字符串则需要在前面添加u。字符串'xxx'虽然是ASCII编码，但也可以看成是UTF-8编码，而u'xxx'则只能是Unicode编码。
Python 3.x 字符串默认的编码方式为 Unicode，即'string'和u'string'等价。若要定义 ASCII 编码的字符串需在字符串前加b。

encode() · decode()

在操作字符串时，为避免乱码，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('utf-8'),表示将unicode编码的字符串str2转换成utf-8编码。