字符编码和文件处理
计算机运行的三大核心硬件 任何一个程序要想运行必须先由硬盘加载到内存,然后去CPU取值执行。 运行着的应用程序产生的数据,必须先存到内存。 字符编码 字符编码针对的是文字 文本编辑器的输入和输出是两个过程,人在操作计算机的时候输入的是人能够看懂的字符,但是计算机只能识别010101这样的二进制数据,那么 输入的字符 >>>(字符编码表)>>> 二进制数字 字符编码表就是字符与数字的对应关系 a 0 b 1 a 00 b 01 c 11 d 10 阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII ASCII最初只用了后七位,127个数字,已经完全能够代表键盘上所有的字符了(英文字符/键盘的所有其他字符) 后来为了将拉丁文也编码进了ASCII表,将最高位也占用了 阶段二:为了满足中文,中国人定制了GBK GBK:用2Bytes表示一个中文字符 还是用1Bytes表示一个英文字符 为了满足其他国家,各个国家纷纷定制了自己的编码 日本把日文编到 Shift_JIS 里,韩国把韩文编到 Euc-kr 里 阶段三:各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。 于是产生了unicode, 统一用2Bytes代表一个字符, 2**16-1=65535,可代表6万多个字符,因而兼容万国语言 但对于通篇都是英文的文本来说