python 编码总结

dinghj 2014-04-29

展开全文

一. 基本知识

1. 如果py文件里面不指定源文件需要用到的编码格式的话，python解析器就会用默认的编码去解析，一般是ASCII，所以如果此时源文件有中文的话就会报错，‘SyntaxError: Non-ASCII character......’, 因此一定要显示指定编码格式，方法是在py文件第二行加入此句：' #-*- coding: gbk -*-' ，就指定编码格式为gbk了。当然写法上还可以是满足这样的正则表达式的句子： 'coding[:=]\s*([-\w.]+)'

注意：一般声明的coding要和文件编码一致，这样最稳妥！

2. python中 s = ‘中文' 和 s = u'中文'的区别：

s = '中文' 要变成python解析器识别的unicode，那就要在运行时才能。因为解析器会在运行时把s变量decode成unicode。

而s = u'中文'则是在编译的时候就变成unicode了，并且会保存在对应的pyc文件中。

所以两者的区别其实就是什么时候变成unicode，而且作为参数传递时有u的直接就是unicode对象了，而没有u的只是python中的普通的str，需要变成unicode来用时需要调用decode或者unicode函数来处理。两者的联系就是他们的最终结果都是unicode。

3. 文件的编码

3.1 在编码问题中，其实文件本身的编码也是很重要的。如何查看？用vim的话，可以通过在vimrc文件加入'set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1' 来检测文件的编码格式，会按照你列的编码顺序来检测该文件的编码。具体做法是加入那句以后，用vim打开该文件后，用set fileencoding来查看。

3.2 文件的编码其实就决定了你在文件中写一句 s = '中文'的时候，这个s的值是什么编码。也就是说，如果文件编码是gbk，那么s就是gbk编码，你要变成unicode来用就要s.decode('gbk').

4. python文件中的中文有人是建议都用u'xx'的写法变成unicode，然后在需要转换显示的时候才转，我表示同意。