字符集 ---转
字符集:简单的说字符集就规定了某个文字对应的二进制数字存放方式(编码)和某串二进制数值代表了哪个文字(解码)的转换关系;字符集只是一个规则集合的名字,就相当于 英语,汉语。一个字符集要正确编码转码一个字符需要三个关键元素:字库表,编码字符集,字符编码。 字符集 16进制编码 对应的二进制数据 UTF-8 0xE5B18C 1110 0101 1011 0001 1000 1100 UTF-16 0x5C4C 1011 1000 1001 1000 GBK 0x8CC5 1000 1100 1100 0101 字库表:相当于所有可读或者可显示字符的数据库,字库表决定了整个字符集能够展现标示所有字符的范围 编码字符集:即用一个编码值code point来标示一个字符在字库中的位置。 字符编码:将编码 字符集和实际存储数值之间的转换关系。 一般来说都会直接将code point的值作为编码后的值直接存储。 UTF-8和Unicode的关系就比较简单了。Unicode就是上文中提到的编码字符集,而UTF-8就是字符编码,即Unicode规则字库的一种实现形式。随着互联网的发展,对同一字库集的要求越来越迫切,Unicode标准也就自然而然的出现。它几乎涵盖了各个国家语言可能出现的符号和文字,并将为他们编号 如何识别乱码的本来想要表达的文字