gb2312

swift removingPercentEncoding not work with a gb2312 string

天大地大妈咪最大 提交于 2019-12-04 21:06:19
The server returns a gb2312 string that has been processed by the urlencode function: %D7%CF%BD%FB%B3%C7%C4%A7%D6%E4_%CE%DE%CF%DE%D0%A1%CB%B5%CD%F8_www.55x.cn.rar How to decode it back to gb2312 string: 紫禁城魔咒_无限小说网_www.55x.cn.rar Percent encoding on other encodings than UTF-8 is not considered to be a recommended way in recent www world, so you may need to implement such conversion by yourself. It may be something like this: extension String.Encoding { static let gb_18030_2000 = String.Encoding(rawValue: CFStringConvertEncodingToNSStringEncoding(CFStringEncoding(CFStringEncodings.GB_18030_2000

关于乱码问题的一些思考

依然范特西╮ 提交于 2019-12-04 15:41:42
前言 从长沙辞职跑到深圳,找房子找工作适应新的工作环境超级忙。之前一直没时间好好写博客,今天难得有空就上来写点东西吧! 都9102年了,没想到还能有那么多乱码问题。之前的工作基本上前后端统一编码就完事了;话不多说,既然遇到了就干脆搞搞明白吧! 编码解码概述 我们都知道计算机不能直接存储字母,数字,图片,符号等,计算机能处理和工作的唯一单位是"比特位(bit)",一个比特位通常只有 0 和 1。利用比特位序列来代表字母,数字,图片,符号等,我们就需要一个存储规则,不同的比特序列代表不同的字符,这就是所谓的"编码"。反之,将存储在计算机中的比特位序列(或者叫二进制序列)解析显示出来成对应的字母,数字,图片和符号,称为"解码",如同密码学中的加密和解密,下面将详细解释编码解码过程中涉及到的一些术语: 字符集合 (Character set):是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等,简单理解就是一个字库,与计算机以及编码无关。 字符编码集 (Coded character set):是一组字符对应的编码(即数字),为字符集合中的每一个字符给予一个数字,如 Unicode 为每一个字符分配一个唯一的码点与之一一对应。 字符编码 (Character Encoding):简单理解就是一个映射关系,将字符集对应的码点映射为一个个二进制序列,从而使得计算机可以存储和处理

ubuntu 编码的修改

北城余情 提交于 2019-12-04 13:04:19
ubuntu 编码的修改 Ubuntu 默认采用UTF8编码,可以方便global。但对中文支持,还不细致,即便默认采用中文安装,也并不会自动添加GB*等支持,致使在Ubuntu下访问部分Win文本文件时,出现乱码。 I. 配置系统环境 执行 sudo vi /var/lib/locales/supported.d/zh 加入以下配置参数 zh_CN.GB18030 GB18030 (最新汉字编码字符集,向下兼容GBK,GB2312) zh_CN.GBK GBK (汉字扩展编码,向下兼容GB2312, 并包含BIG5全部汉字) zh_CN.GB2312 GB2312 (简化汉字编码字符集, 最近有客户要我们改进GB2312,太看得起我们了,我只能说:"NO!") zh_CN.GB18031 GB18031 (数字键盘汉字编码输入,面向手持设备,我的Nokia3120从来就是发短信,接听电话,无法和PC通讯,就不用这个了。 maybe用Google Android SDK的大侠们需要这个) zh_HK.BIG5 BIG5 (繁体) zh_TW.BIG5 BIG5 (繁体) 然后执行 sudo locale-gen 提示以下信息,成功了 zh_CN.GB18030... done zh_CN.GBK... done ...... II. 系统环境支持GB*内码了,但用vi,

RequestDispatcher

无人久伴 提交于 2019-12-04 05:51:02
一、RequestDispatcher RequestDispatcher实例对象是由Servlet引擎创建的,它用于包装一个要被其他资源调用的资源,例如Servlet、HTML文件,JSP文件等,并可以通过其中的方法将客户端的请求转发给所包装的资源。RequestDispatcher接口定义了forward和include方法,forward用于将请求转发到RequestDispatcher对象封装的资源,include用于将RequestDispatcher对象封装的资源作为当前响应内容的一部门包含进来。 ServletContext接口中定义了两个用于获取RequestDispatcher对象的方法: getRequestDispatcher方法:返回包装了某个路径所指定的资源的RequestDispatcher对象,传递给该方法的路径字符串必须以“/”开头,“/”代表当前Web应用程序的根目录(虚拟目录)。WEB-INF目录中的内容对RequestDispatcher对象是可见的,所以,传递给getRequestDispatcher方法的资源可以是WEB-INF目录中不能被外界访问的文件。 getNamedDispatcher方法:返回包装了某个Servlet或JSP文件的RequestDispatcher对象

Python Unicode与中文处理(转)

浪子不回头ぞ 提交于 2019-12-03 20:32:46
Python Unicode与中文处理 python中的unicode是让人很困惑、比较难以理解的问题,本文力求彻底解决这些问题; 1.unicode、gbk、gb2312、utf-8的关系; http://www.pythonclub.org/python-basic/encode-detail 这篇文章写的比较好,utf-8是unicode的一种实现方式,unicode、gbk、gb2312是编码字符集; 2.python中的中文编码问题; 2.1 .py文件中的编码 Python 默认脚本文件都是 ANSCII 编码的,当文件 中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正。 一个module的定义中,如果.py文件中包含中文字符(严格的说是含有非anscii字符),则需要在第一行或第二行指定编码声明: # -*- coding=utf-8 -*-或者 #coding=utf-8 其他的编码如:gbk、gb2312也可以; 否则会出现类似:SyntaxError: Non-ASCII character '\xe4' in file ChineseTest.py on line 1, but no encoding declared; see http://www.pytho for details这样的异常信息;n.org/peps/pep-0263

<jsp:include>和<%@include%>的区别

此生再无相见时 提交于 2019-12-03 19:33:11
<%@include%>和<jsp:include>的区别,发现了一些东西的。 <%@include%>:页面 请求之前预编译 ,所有代码包含进来之后,一起进行处理,把所有代码合在一起,编译成一个servlet <jsp:include>:所有代码分别处理,在页面 被请求的时候 才编译,被编译成多个servlet,页面语法相对独立,处理完成之后再将代码的显示结果(处理结果)组合进来。 JSP中的两种包含页面的方法 第一种 :include指令:当JSP转换成Servlet时引入指定文件 <%@ pagecontentType="text/html;charset=GB2312" language="java"errorPage=""%> <%@ include file="head.jsp"%> <%@ include file="body.jsp"%> <%@ include file="tail.jsp"%> 第二种 :<jsp:include>动作元素:当JSP页面被请求时引入指定文件 <%@ page contentType="text/html; charset=GB2312"language="java" errorPage=""%> <jsp:include page="head.jsp"/> <jsp:include page="body.jsp"/> <jsp

window下的php命令行输出汉字乱码处理

走远了吗. 提交于 2019-12-03 13:23:24
1. 在 php 的代码中加入 header("content-type:text/html;charset=gbk"); 2. 设置命令行的字体 在命令行上右击 属性 字体 选择如下字体 点击 确定 我按照上面的流程基本解决问题,如果还有乱码的话,看看是不是编码不是 gbk 尝试 gb2312 以及其他的一些编码。 来源: https://www.cnblogs.com/ifme/p/11796805.html

字符集和字符编码的区别

拟墨画扇 提交于 2019-12-03 09:19:50
转自: https://www.cnblogs.com/xdyixia/p/9114145.html 1、字符,字符集,字符编码概念 字符: 在计算机和电信技术中,一个字符是一个单位的字形、类字形单位或符号的基本信息。即一个字符可以是一个中文汉字、一个英文字母、一个阿拉伯数字、一个标点符号等。 字符集: 多个字符的集合。例如GB2312是中国国家标准的简体中文字符集,GB2312收录简化汉字(6763个)及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。 字符编码: 把字符集中的字符编码为(映射)指定集合中的某一对象(例如:比特模式、自然数序列、电脉冲),以便文本在计算机中存储和通过通信网络的传递。 字符集和字符编码的关系 : 字符集是书写系统字母与符号的集合,而字符编码则是将字符映射为一特定的字节或字节序列,是一种规则。通常特定的字符集采用特定的编码方式(即一种字符集对应一种字符编码(例如:ASCII、IOS-8859-1、GB2312、GBK,都是即表示了字符集又表示了对应的字符编码,但Unicode不是,它采用现代的模型)),因此基本上可以将两者视为同义词。 2、发展过程 (1)单字节 ASCII(American Standard Code for Information Interchange)

解决Mac上打开txt文件乱码问题

孤者浪人 提交于 2019-12-03 07:59:32
   出处: https://www.jianshu.com/p/f55ddf1e9839   经常会在Mac上打开一个txt文件,发现里面的中文都是乱码,问题是在Windows和手机上看都完全是正常的,这就十分闹心了。网上千奇百怪的解决方案大多不能用,试错后发现一个解决方案。需要用到命令行工具iconv,语法是这样的: iconv -f encoding -t encoding sourcefile > destinationfile   比如一个典型的例子(也是大多数情况): iconv -f GB18030 -t utf-8 A.txt > B.txt   原文中是GB18030 > UTF8,不知为何会报错,改为utf-8后好用。   看看效果:   完全解决了我们的问题。又有了新的疑惑,why GB18030 > UTF8 ?   补充资料:   兼容性 GB2312:基本满足了汉字的计算机处理需要,对于人名、古汉语等方面出现的罕用字,GB 2312不能处理。 GBK:GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1国际标准。 GB18030 :对GB 2312-1980完全向后兼容,与GBK基本向后兼容,并支持Unicode(GB 13000)的所有码位。    发布时间 GB2312:由中国国家标准总局1980年发布

Convert GB2312 to UTF-8

匿名 (未验证) 提交于 2019-12-03 07:36:14
可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效,请关闭广告屏蔽插件后再试): 问题: I have a text file that contains localized language strings that is currently encoded in GB2312 (simplified Chinese), but all of my other language files are in UTF-8. I am finding it very difficult to work with this file, as none of my text editors will work properly with it and keep corrupting it. Are there any tools to convert this to UTF-8, and are there any downsides to doing this? Would it be better to just keep it as GB2312 and use a different editor (if so, can you recommend one)? Update: I'm using Windows XP (English install). Update