编码转换

TNS协议解析

青春壹個敷衍的年華 提交于 2020-02-12 13:00:43
TNS协议解析 0. 通用规则 每个 Oracle 包的开始四个字节(如果启用了 large_SDU )是标识整个包长度的字段, 不管客户端和服务端是大端序还是小端序, 这一字段都是大端序 1. Connect 基本构成 字段 编码方式 含义 version B2 客户端版本 version(Compatible) B2 客户端支持的最低服务端版本 Service Options B2 没用过 Session Data Unit Size B2 客户端的 SDU 大小 Max Transmission Data Unit Size B2 客户端的 TDU 大小 NT Protocol Characteristics B2 没用过 Line Turnaround Value B2 没用过 Value of 1 in Hardware B2 客户端是大端序还是小端序, 0x0001 就是大端序 Length of Connect Data B2 连接信息串的长度 Offset to Connect Data B2 连接信息串在包中开始的位置 … N 没用过的数个字段 Connect Data N 客户端连接信息串, 含有 Service name 或 SID 补充说明 Value of 1 in Hardware 指明了客户端发送数据所用的是大端序还是小端序,

计算机编码

强颜欢笑 提交于 2020-02-12 05:29:52
ASCII码 可以先让学生看图片,然后再介绍ascii码 假如我们就已经有这么一张表了 ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于 拉丁字母 的一套电脑编码系统,主要用于显示现代 英语 和其他 西欧 语言。它是现今最通用的单字节编码系统,并等同于 国际 标准ISO/IEC 646。 由于计算机是美国人发明的,因此,最早只有127个字母被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为 ASCII 编码,比如大写字母 A 的编码是 65 ,小写字母 z 的编码是 122 。后128个称为 扩展ASCII 码。 那现在我们就知道了上面的字母符号和数字对应的表是早就存在的。那么根据现在有的一些十进制,我们就可以转换成二进制的编码串。 比如 一个空格对应的数字是0 翻译成二进制就是0(注意字符'0'和整数0是不同的) 一个对勾√对应的数字是251 翻译成二进制就是11111011 提问:假如我们要打印两个空格一个对勾 写作二进制就应该是 0011111011, 但是问题来了,我们怎么知道从哪儿到哪儿是一个字符呢? 论断句的重要性与必要性: 上次在网上看到个新闻,讲是个小偷在上海被捕时高喊道:“我一定要当上海贼王!” 正是由于这些字符串长的长,短的短

Python-基础-day6

孤人 提交于 2020-02-12 05:29:11
1、二进制 前言:计算机一共就能做两件事:计算和通信 2、字符编码 生活中的数字要想让计算机理解就必须转换成二进制。十进制到二进制的转换只能解决计算机理解数字的问题,那么文字要怎么让计算机理解呢? 于是我们就选择了一种方式,既然数字可以转换成十进制,我们只要想办法吧文字,转换成数字,这样文字不就可以表示成二进制了么? 那么问题来了:怎么把文字转换成数字呢?就是强制转换 我们自己强行约定了一个表,把文字和数字对应上,这张表就相当于翻译,我们可以拿着一个数字来对比对应表找到相应的文字,反之亦然。 ASCII码 我们先来看一张图片,在了解ascii码 ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于 拉丁字母 的一套电脑编码系统,主要用于显示现代 英语 和其他 西欧 语言。它是现今最通用的单字节编码系统,并等同于 国际 标准ISO/IEC 646。 由于计算机是美国人发明的,因此,最早只有127个字母被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为 ASCII 编码,比如大写字母 A 的编码是 65 ,小写字母 z 的编码是 122 。后128个称为 扩展ASCII 码。 那现在我们就知道了上面的字母符号和数字对应的表是早就存在的。那么根据现在有的一些十进制

字符编码笔记:ASCII,Unicode和UTF-8

。_饼干妹妹 提交于 2020-02-12 05:27:57
这家伙说的通俗易懂,只是在谈到UTF-8 “它可以使用1~4个字节表示一个符号”有问题。 作者:阮一峰 来源:阮一峰的网络日志 下面就是我的笔记,主要用来整理自己的思路。但是,我尽量试图写得通俗易懂,希望能对其他朋友有用。毕竟,字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识。 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。 上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。 ASCII码一共规定了128个字符的编码,比如空格“SPACE”是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。 2、非ASCII编码 英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是

字符编码ASCII, Unicode和UTF-8

房东的猫 提交于 2020-02-12 05:26:50
字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识。 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。 上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。 ASCII码一共规定了128个字符的编码,比如空格”SPACE”是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。 2、非ASCII编码 英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。 但是,这里又出现了新的问题。不同的国家有不同的字母,因此

ASCII、Unicode、UTF-8、UTF-8(without BOM)、UTF-16、UTF-32傻傻分不清

自作多情 提交于 2020-02-12 05:20:33
目录 ASCII、Unicode、UTF-8、UTF-8(without BOM)、UTF-16、UTF-32傻傻分不清 前言 ASCII Unicode UTF UTF-8 UTF-8(without BOM) 怎样区分UTF-8、UTF-16和UTF-32 ASCII、Unicode、UTF-8、UTF-8(without BOM)、UTF-16、UTF-32傻傻分不清 前言 Github上下载了一份代码打算学习,源工程是在linux上开发的,我在Windows上编译通过不了,很多莫名奇妙的错误,最后发现源代码文件是UTF-8(without BOM)编码的,Notepad++修改编码格式为UTF-8编译通过。 为什么Windows不认识UTF-8(without BOM)? 为什么Linux认识UTF-8(without BOM)和UTF-8? ASCII 毕竟在电子系混过四年,这个词不陌生,用一个字节的低7位来表示128个英文字符(0xxxxxxx),可是地球上的文字又不是只有英文,光汉字就好几万个,所以每个国家和地区又做了一套符合自身情况的编码规范,比如简体中文编码标准GB2312,使用两个字节来表示一个汉字,可以表示65536个中文字符。但是如果每个国家都这么搞那不就乱套了嘛,于是Unicode就应运而生了。 Unicode Unicode是个符号集,与ASCII类似

Unicode 和 UTF-8 之间的关系

可紊 提交于 2020-02-12 05:19:31
今天中午,我突然想搞清楚 Unicode 和 UTF-8 之间的关系,就开始查资料。 这个问题比我想象的复杂,午饭后一直看到晚上9点,才算初步搞清楚。 下面就是我的笔记,主要用来整理自己的思路。我尽量写得通俗易懂,希望能对其他朋友有用。毕竟,字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识。 一、ASCII 码 我们知道,计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bit)有 0 和 1 两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从 00000000 到 11111111 。 上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为 ASCII 码,一直沿用至今。 ASCII 码一共规定了128个字符的编码,比如空格 SPACE 是32(二进制 00100000 ),大写的字母 A 是65(二进制 01000001 )。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的一位统一规定为 0 。 二、非 ASCII 编码 英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号

python-字符编码与文件处理

孤街醉人 提交于 2020-02-12 04:58:53
一.字符编码 由字符翻译成二进制数字的过程 字符--------(翻译过程)------->数字 这个过程实际就是一个字符如何对应一个特定数字的标准,这个标准称之为字符编码。 字符编码的发展史 阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII   ASCII :一个Bytes代表一个字符 (英文字符/键盘上的所有其他字符) ,1Bytes=8bit,8bit可以表示0-2**8-1种变化,即可以表示256个字符     ASCII最初只用了后七位,127个数字,已经完全能够代表键盘上所有的字符了(英文字符/键盘的所有其他字符)     后来为了将拉丁文也编码进了ASCII表,将最高位也占用了 阶段二:为了满足中文,中国人定制了GBK    GBK:2Bytes代表一个字符   为了满足其他国家,各个国家纷纷定制了自己的编码   日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里 阶段三:各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。 于是产生了 unicode, 统一用2Bytes代表一个字符, 2**16-1=65535,可代表6万多个字符,因而兼容万国语言 但对于通篇都是英文的文本来说,这种编码方式无疑是多了一倍的存储空间(二进制最终都是以电或者磁的方式存储到存储介质中的) 于是产生了 UTF-8

字符集相关知识

一世执手 提交于 2020-02-12 04:47:36
字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。 ASCII (American Standard Code for Information Interchange, 美国 信息互换标准编码)是基于 罗马 字母表的一套电脑编码系统。 特点 它主要用于显示现代英语和其他 西欧 语言。它是现今最通用的单 字节 编码系统,并等同于国际标准ISO 646。 包含内容 控制字符 : 回车键 、退格、换行键等。 可显示字符:英文大小写字符、阿拉伯数字和西文符号。 技术特征 7位(bits)表示一个字符,共128字符,字符值从0到127,其中32到126是可打印字符。 扩展自符集 7位编码的字符集只能支持128个字符,为了表示更多的 欧洲 常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。 ASCII扩展字符集:它是从ASCII字符集扩充出来的,扩充后的符号增加了表格符号、计算符号、希腊字母和特殊的拉丁符号。 GB2312 又称为 GB2312-80 字符集,全称为《信息交换用汉字编码字符集·基本集》,由原 中国 国家标准总局发布,1981年5月1日实施。 特点 GB2312是

中文字符集编码unicode,gb2312,cp936,GBK,GB18030介绍

让人想犯罪 __ 提交于 2020-02-12 04:39:18
概要: UTF-8的一个特别的好处是它与ISO- 8859-1完全兼容,可以表示世界上所有的字符,汉字通常用3个字节来表示。GB2312的code page是CP20936。GBK的code page是CP936 。GB18030支持的字符数更多。GB2312、GBK、GB18030均为双字节。 整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这 几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢? 我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unicode),FE、FF(Unicode big endian),EF、BB、BF(UTF-8)。但这些标记是基于什么标准呢? 问题二:最近在网上看到一个ConvertUTF.c,实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式,我原来就了解。但这个程序让我有些糊涂,想不起来UTF-16和UCS2有什么关系。 查了查相关资料,总算将这些问题弄清楚了,顺带也了解了一些Unicode的细节。作者写成一篇文章,送给有过类似疑问的朋友