gb2312

web开发中的JAVA字符转码

邮差的信 提交于 2019-12-03 05:23:35
二、基本概念 2.1 JAVA中字符的表达 JAVA中有char、byte、String这几个概念。 char 指的是一个UNICODE字符,为16位的整数。 java抓取网页保存的乱码问题解决 byte 是字节,字符串在网络传输或存储前需要转换为byte数组。在从网络接收或从存储设备读取后需要将byte数组转换成String。 String是字符串,可以看成是由char组成的数组。 String 和 char 为内存形式,byte是网络传输或存储的序列化形式。 举例: 英 String ying = “英”; char ying = ying.charAt(0); //返回第0位的字符 String yingHex = Integer.toHexString(ying); //字符和整数同是16位 82 F1 byte yingGBBytes = ying.getBytes(“GBK”); //转换成字节 GB编码的字节数值 D3 A2 2.2 编码方式的简介 String序列化成byte数组或反序列化时需要选择正确的编码方式。如果编码方式不正确,就会得到一些0x3F的值。常用的字符编码方式有ISO8859_1、GB2312、GBK、UTF-8/UTF-16/UTF-32。 ISO8859_1用来编码拉丁文,它由单字节(0-255)组成。 GB2312、GBK用来编码简体中文

iconv(): Detected an illegal character in input...

断了今生、忘了曾经 提交于 2019-12-03 05:22:25
用iconv函数将gbk转换为utf-8时,怎么有些汉字会出现l乱码问题, Notice: iconv() [function.iconv]: Detected an illegal character in input string 造成此错误的原因: 啰不是gb2312 字符集里的字,是gbk字符集里的字。 iconv("gbk", "UTF-8//IGNORE", $str); 这样就不会Notice: iconv() [function.iconv]: 在UTF-8后面加上 //IGNORE 如果在gbk上加会不好使 不知道为什么 希望知道的解答一下 来源: oschina 链接: https://my.oschina.net/u/346962/blog/86085

C#操作XML的方法

匿名 (未验证) 提交于 2019-12-03 00:38:01
C# XML XmlDocument 地址: http://www.cnblogs.com/txw1958/archive/2013/01/16/csharp-xml.html 添加命名空间: using System.Xml; 定义公共对象: XmlDocument xmldoc ; XmlNode xmlnode ; XmlElement xmlelem ; 1,创建到服务器同名目录下的xml文件: 方法一: xmldoc = new XmlDocument ( ) ; //加入XML的声明段落,<?xml version="1.0" encoding="gb2312"?> XmlDeclaration xmldecl; xmldecl = xmldoc.CreateXmlDeclaration("1.0","gb2312",null); xmldoc.AppendChild (xmldecl); //加入一个根元素 xmlelem = xmldoc.CreateElement ( "" , "Employees" , "" ) ; xmldoc.AppendChild (xmlelem) ; //加入另外一个元素 for(int i=1;i<3;i++) { XmlNode root=xmldoc.SelectSingleNode("Employees");//查找

ANSI和GB2312的区别

匿名 (未验证) 提交于 2019-12-03 00:34:01
这几天工作中用到不少字符集,Unicode、utf-8、GB2312等,但是在windows命令行里敲notepad进入文本编辑页面。保存时需要选择编码方式,但是不存在GB,却有ANSI,于是纳闷,回来一查,才恍然大悟:原来在简体中文系统下,ANSI 编码代表 GB2312 编码。   为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如:汉字 ‘中’ 在中文操作系统中,使用 [0xD6,0xD0] 这两个字节存储。   不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。   不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。 转载请标明出处: ANSI和GB2312的区别 文章来源: ANSI和GB2312的区别

MiniGUI.cfg 文件详解

匿名 (未验证) 提交于 2019-12-03 00:34:01
5、 MiniGUI 5 MiniGUI V3.0 的运行 5.1 建立 MiniGUI V3.0 运行环境的前提 5.2 MiniGUI.cfg说明 5.2.1 配置文件MiniGUI.cfg格式简介 5.2.2 system段 5.2.3 图形引擎配置段 fbcon段 qvfb段 pc_xvfb 段 rtos_xvfb 段 shadow 段 mlshadow 段 5.2.4 字体配置段 systemfont 段 rawbitmapfonts、varbitmapfonts、upf、qpf、truetypefonts段 5.2.5 mouse段 5.2.6 event段 5.2.7 cursorinfo段 5.2.8 resinfo段 5.2.9 渲染器的设置 classic/flat/fashion 渲染器 skin 渲染器 5.2.10 默认的MiniGUI.cfg文件内容 5.3 环境变量 MiniGUI MiniGUI MiniGUI 支持 POSIX1.X 的 UNIX 系统。这包括 Linux 2.4 和 2.6 等,也包括 uClinux 等非标准 Linux 系统。 MiniGUI -Process 的运行需要系统提供 System V 的如下进程间通讯机制:共享内存和信号量。 MiniGUI -Processes 需要 UNIX 域套接字机制的支持。

UnicodeDecodeError: &#039;gb2312&#039; codec can&#039;t decode bytes in position 723269-723270: illegal multibyte s

匿名 (未验证) 提交于 2019-12-03 00:22:01
pycharm控制台中文乱码,目标网页编码gb2312编码 <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> html = response.read() 在linux终端运行python index.py显示网页正常 然后排查pycharmIDE控制台编码问题 修改ctrl+alt+s Editor--File Encoding Global Encoding 设置成GBK,显示正常。 猜测 :控制台的编码需要跟win保持一致 文章来源: UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 723269-723270: illegal multibyte s

记一次读取csv报“'gb2312' codec can't decode byte 0x9b”解决办法

匿名 (未验证) 提交于 2019-12-02 23:57:01
问题:UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 2-3: illegal multibyte sequence 原因:python在做将普通字符串转换为unicode对象时, 解决方法:使用gbk,代替gb2312,例如:u_string = unicode(string , "gbk") 来源:博客园 作者: jack_6511 链接:https://www.cnblogs.com/c-w20140301/p/11453082.html

decode 和 encode作用

匿名 (未验证) 提交于 2019-12-02 23:47:01
decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串转换成unicode编码 encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串转换成gb2312编码,

C#读取txt文件时中文乱码

匿名 (未验证) 提交于 2019-12-02 23:43:01
解决办法 使用GB2312中文字符集 StreamReader reader = new StreamReader(txtUrl, Encoding.GetEncoding(“gb2312”)); 或使用utf-8中文字符集 StreamReader reader = new StreamReader(txtUrl, Encoding.GetEncoding(“utf-8”)); 或使用默认编码格式 StreamReader sR = new StreamReader(filePath, System.Text.Encoding.Default) --------------------- 作者:IT翅哥 来源:CSDN 原文:https://blog.csdn.net/qq_35902836/article/details/79443249 版权声明:本文为博主原创文章,转载请附上博文链接!

一篇文章详解python的字符编码问题

会有一股神秘感。 提交于 2019-12-02 02:55:30
一篇文章详解python的字符编码问题 一:什么是编码   将明文转换为计算机可以识别的编码文本称为“编码”。反之从计算机可识别的编码文本转回为明文为“解码”。   那么什么是明文呢,首先我们从一段信息说起,消息以人们可以理解,易懂的表示存在,我们把这个表示为明文(plain text)。对于说英文的人,纸张上打印的或者屏幕上显示的英文都算是明文。 二:都有什么编码格式? 1:ASCII(占一个字符,只支持英文)   计算机上的数据都是以二进制的形式存储的,1个字节(8比特)可以表示256种状态,英文只有26个字符,再加上一些特殊的字符,使用128个就够了,计算机就可以使用127个不同字节来表示英文文字,这就是ASCII码 2:GB2312(占两个字符,支持6700+汉字)   计算机进入中国后,无法显示中文,一个字节已经被占满了,我国重新制定了一个编码表,将扩展的第八位对应的拉丁文全部删掉,规定一个小于127的字符与原来的意义相同,当两个大于127的字符连接在一起的时候,就表示一个汉字,前面一个字节为高字节,后面一个字节为低字节,这样就可以表示7000多汉字,这种编码叫做GB2312。GB2312是对ASCII的中文扩展 3:GBK和GB18030(GB2312的升级版,支持21000+汉字)   由于汉字的数量太大,GB2312是不能满足需求