字符编码--第3章 字符的存储--EUC(1991年)
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 第2节 EUC EUC全名为Extended Unix Code,是一个使用8位编码来表示字符的方法。EUC最初是针对Unix系统,由一些Unix公司所开发,于1991年标准化。EUC基于ISO/IEC 2022的7位编码标准,因此单字节的编码空间为94,双字节的编码空间(区位码)为94x94。把每个区位加上0xA0来表示,以便符合ISO 2022。它主要用于表示及储存汉语文字、日语文字及朝鲜文字。 EUC定义了4个单独的码集(code set)。码集0总是对应于7位的ASCII(或其它的各国定义的ISO 646),包括了ISO 2022定义的C0与G0空间的值。码集1, 2, 3表示G1空间的值。其中,码集1表示一些未经修饰(unadorned)的字符。码集2的字符编码以0x8E(属于C1控制字符,或称SS2)为第一字节。码集3的字符编码以0x8F(另一个属于C1的控制字符,或称SS3)为第一字节。码集0总是编码为单字节;码集2、3总是编码为至少2个字节;码集1编码为1-3个字节。 1.EUC-CN EUC-CN是GB 2312最常用的表示方法。浏览器编码表上的“GB2312”,通常都是指“EUC-CN”表示法。 ASCII字符,范围为0x21-0x7E,直接用单字节表示。这是码集0。 GB