python 的字符编码
1. unicode 与utf-8 https://www.jianshu.com/p/e1fd1d936278 ASCII 是字符集+编码规则。只对英文字母和常见的符号进行了编号,最多只有256个字符(一个byte) Unicode 是「字符集」, 为世界上的所有字符统一指定了一个2byte 数字 UTF-8 是「编码规则」, 这是一种存储编码实现方式,感觉是为了节省内存空间用的。使用不定长度编码,比如字母用1个byte, 汉字用三个byte. https://www.cnblogs.com/lowmanisbusy/p/9136347.html unicode编码: unicode编码为世界上所有字符都分配了一个唯一编号, 为十六进制, 如中文简体汉字 “渣” 的 Unicode编号就是 6E23, unicode仅仅定义了每个字符的编号,并没有定义如何将这个编号进行存储的方式,所以后来出现了utf-8, gbk等编码格式, 它们都是 unicode 的一种实现方式, 仍然使用了unicode 中的唯一编号, 个人对其的简单理解就是在unicode编码的基础之上又定义了对字符的存储方式. https://www.jianshu.com/p/9920595791b7 在计算机最早期,只有ascii编码,但是ascii编码方式一个字符只占用一个字节,这样就只能表示英文字符了