字符集与编码(四)——Unicode
注:由于两边同步的麻烦,更多更改及调整可参考我的网站: xiaogd.net 上的 字符集编码与乱码系列 ,已将字符集编码系列与乱码探源系列合并,更新及勘误等不再更新到这边。 前面谈到不少的Unicode,但一直没有系统地谈及Unicode的方方面面,所以本篇文章专门谈谈Unicode,当然了,Unicode是一个庞大的主题,这里也是拣些重要的方面谈谈而已,免不了挂一漏万。 什么是Unicode? 按Unicode官方的说法,Unicode是Unicode Standard(Unicode标准)的简写,所以Unicode即是指Unicode标准。 按wiki的说法,它是一个计算机工业标准(a computing industry standard)。 下图来自 http://www.unicode.org/standard/WhatIsUnicode.html 中的截图,在这里我把中文和英文的合在一起 这样一个所谓的一个唯一的数字在Unicode中就叫做 码点 。 Unicode中的码点是什么? 字符集通常又叫” 编码 字符集”( coded charset),这里的 coded 与”字符集 编码 ”(charset encoding )中的 encoding 是不同的。 一个是 code ,一个是 encode ,翻译时都可以译成”编码”,但把 coded charset译成”