utf8

pyttsx的中文语音识别问题及探究之路

流过昼夜 提交于 2020-03-11 13:32:57
最近在学习pyttsx时,发现中文阅读一直都识别错误,从发音来看应该是字符编码问题,但搜索之后并未发现解决方案。自己一路摸索解决,虽说最终的原因非常可笑,大牛们可能也是一眼就能洞穿,但也值得记录一下。嗯,主要并不在于解决之道,而是探究之旅。 1、版本(python2中谈编码解码问题不说版本都是耍流氓)   python:2.7   pyttsx:1.2   OS:windows10中文版 2、系统的各种字符编码 sys.getdefaultencoding() ascii sys.getfilesystemencoding() mbcs locale.getdefaultlocale() ('zh_CN', 'cp936') locale.getpreferredencoding() cp936 sys.stdin.encoding UTF-8 sys.stdout.encoding UTF-8 3、探究之路  (1)初体验:   按照http://pyttsx.readthedocs.io/en/latest/engine.html 的说明,传入中文,使用unicode类型,utf-8编码,结果发音并不是输入的内容。 1 #-*- coding: UTF-8 -*- 2 import sys 3 import pyttsx 4 5 reload(sys) 6 sys

UTF-8编码中BOM的检测与删除

自作多情 提交于 2020-03-11 11:51:04
所谓BOM,全称是 Byte Order Mark ,它是一个Unicode字符,通常出现在文本的开头,用来标识字节序(Big/Little Endian),除此以外还可以标识编码(UTF-8/16/32),如果出现在文本中间,则解释为 zero width no-break space 。 注:Unicode相关知识的详细介绍请参考 UTF-8, UTF-16, UTF-32 & BOM 。 对于UTF-8/16/32而言,它们名字中的8/16/32指的是编码单位是多少位的,也就是说,它们的编码单位分别是8/16/32位,换算成字节就是1/2/4字节,如果是多字节,就要牵扯到字节序,UTF-8以单字节为编码单位,所以不存在字节序。 UTF-8主要的优点是可以兼容ASCII,但如果使用BOM的话,这个好处就荡然无存了,除此以外,BOM的存在还可能引发一些问题,比如下面错误便都有可能是BOM导致的: Shell: No such file or directory PHP: Warning: Cannot modify header information – headers already sent 在详细讨论UTF-8编码中BOM的检测与删除问题前,不妨先通过一个例子热热身: shell> curl -s http://phone.10086.cn/ | head -1 |

Tomcat8优化--JVM字节码

我是研究僧i 提交于 2020-03-10 19:52:50
JVM字节码   前面我们通过tomcat本身的参数以及jvm的参数对tomcat做了优化,其实要想将应用程 序跑的更快、效率更高,除了对tomcat容器以及jvm优化外,应用程序代码本身如果写 的效率不高的,那么也是不行的,所以,对于程序本身的优化也就很重要了。   对于程序本身的优化,可以借鉴很多前辈们的经验,但是有些时候,在从源码角度方面 分析的话,不好鉴别出哪个效率高,如对字符串拼接的操作,是直接“+”号拼接效率高还 是使用StringBuilder效率高?   这个时候,就需要通过查看编译好的class文件中字节码,就可以找到答案。   我们都知道,java编写应用,需要先通过javac命令编译成class文件,再通过jvm执行, jvm执行时是需要将class文件中的字节码载入到jvm进行运行的。 1、通过javap命令查看class文件的字节码内容 1.1 创建一个简单的测试类 public class Test1 { public static void main(String[] args) { int a = 2; int b = 5; int c = b-a; System.out.println(c); } } 执行成功target目录下便会生成class文件:    1.2 cmd 使用命令 javap -v Test1.class > Test1.txt

mysql 相关记录

风格不统一 提交于 2020-03-10 11:29:12
1、查看编译参数 head -30 mysql/bin/mysqlbug 2、数据库修复 mysqlcheck --auto-repair --databases data_platform --user=root --password 场景:show tables; 有表存在,但是去用不了,修复之后表确实不存在了,show不出来了,之前mysql被我kill过。 3、数据库中文乱码 网上讲了很多情况和方法,总结起来三点: 1、数据库本身的编码设置 用 show variables like "%character% 可以看到,各个编码要尽量保持一致 [mysqld] character_set_server=utf8 #设置mysql server的编码,这样新建的库默认就是utf8编码了 2、php链接时候的设置 要query("set names utf8")一下 3、插入数据的时候编码要正确 我就被这个问题坑惨了,用sql脚本导入了一批数据,发现取出后怎么设置都是乱码,原因就是入库时没设置编码。 要在开头加一句 set names utf8. 4、授权(all) grant all privileges on *.* to root@"%" identified by 'root' with grant option; 5、MySQL数据导出与导入 导出

注册功能实现

冷暖自知 提交于 2020-03-09 22:46:39
1.webContext下新建regist.jsp页面 2.根据数据库内容,新建表单,用来获取页面数据 <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> <!DOCTYPE html> <html> <head> <style type="text/css"> span{ color:red; } </style> <meta charset="UTF-8"> <title>Insert title here</title> </head> <body> <form action="regist" method="Post"> 用户名称:<input type="text" name="username"/><span>${regist_msg}</span> <br/> 用户密码:<input type="password" name="password"/> <br/> 确认密码:<input type="password" name="repassword"/> <br/> <input type="submit" value="注册"/> </form> </body> </html> 3.创建RegistrServlet 4.注册业务处理 4

谈谈性能优化:Mysql 的字符集以及带来的一点存储影响

穿精又带淫゛_ 提交于 2020-03-09 22:43:48
前言 从 Mysql 数据库角度来说,谈到存储就一定离不开字符集,只不过在我们日常开发中统一的 utf8/utf8mb4 编码,使我们常常忽略了字符集的影响,本文仅从字符集的角度来谈谈对 InnoDB 的存储设计的一点影响,以及 Mysql 是怎么兼容各种字符集的。 过一下字符集 Unicode 作为现在通用的字符集,通常采用两个字节表示一个字符,带来的副作用就是,原本采用 ASCII 字符集只需要一个字节的,却变成了 2 个字节,造成了空间浪费,而 UTF-8 编码规则,将 Unicode 编码成 1~4 个字节,ASCII 字符集继续保持了 1 个字节空间,而中文编码成了三个字节,如下图。 对存储带来了什么影响 先说明下 Mysql 中存在两种字符集 utf8 和 utf8mb4,以下例子均以 Mysql 的 utf8(1~3个字节)为例。 采用 utf8 编码的确很不错,但是也带来了一个问题,例如我在 Mysql 中定义了一个定长字符类型 char(5): name type length title char 5 所谓定长字符类型代表我要给 title 分配 5 个字符大小的空间,可是 utf8 每个字符可能是 1~3 个字节,我该分配多少空间合适呢? 理论上为了兼容,最好应该采用 utf8 的最大 3 个字节进行分配,也就是 5*3 = 15 个字节的空间

Otter双A同步搭建入门教程

烂漫一生 提交于 2020-03-09 20:10:21
1.准备阶段 1.1 环境 虚拟机A : 192.168.0.130 虚拟机B :192.168.0.131 系统: Ubuntu 16.04 LTS JRE:OpenJDK 1.8.0_151(A、B都要安装) DB:MySQL 5.7.20(A、B都要安装) ZooKeeper:3.4.11(只装A机) Otter Manager:4.2.14 (只装A机)( 4.2.15 启动Node时感觉有Bug,没有使用) Otter Node:4.2.14(A、B都要安装) 1.2 安装环境 1.2.1 JRE安装 sudo apt-get install default-jre 1.2.2 MySQL安装 sudo apt-get install mysql-server sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf character-set-server=utf8 log-bin=mysql-bin binlog-format=ROW server-id=1 #A,B需要设置成不一样的id #bind-address=127.0.0.1 #注释该行 service mysql restart 进入mysql,设置单独账号密码 grant all on *.* to 'root'@'%' identified by 'password';

8.14. JSON Types

∥☆過路亽.° 提交于 2020-03-09 18:25:11
8.14. JSON Types 8.14.JSON类型 JSON data types are for storing JSON (JavaScript Object Notation) data, as specified in RFC 7159 1 . Such data can also be stored as text , but the JSON data types have the advantage of enforcing that each stored value is valid according to the JSON rules. There are also assorted JSON-specific functions and operators available for data stored in these data types; see Section 9.15. JSON数据类型用于存储JSON(JavaScript Object Notation)数据(如RFC 71591中所述)。此类数据也可以存储为文本,但是JSON数据类型的优点是可以根据JSON规则强制每个存储的值均有效。对于这些数据类型中存储的数据,还提供了各种特定于JSON的函数和运算符。请参阅 第9.15节 。 There are two JSON data

解决tomcat服务器响应的数据格式以及中文乱码问题

倾然丶 夕夏残阳落幕 提交于 2020-03-09 13:53:09
tomcat服务器响应的数据,在客户端使用时,当做json数据格式使用的两种方法: $.get(type):将最后一个参数type指定为"json" 在服务器端设置MIME类型 response.setContentType(“application/json;charset=utf-8”) 解决服务器中文乱码问题 在服务器端加上如下代码 response.setContentType(“text/html;charset=utf-8”); 来源: CSDN 作者: lungggg 链接: https://blog.csdn.net/qq_41902020/article/details/104748407

关于mysql数据库utf-8问题

久未见 提交于 2020-03-09 12:28:58
1.bug的出现   我们正常使用utf-8类型来给我们的字段的字符编码,对于正常的都没有问题,例如姓名呀,性别年龄等,但是会遇到一个问题就是如果存储表情emoji则无法存入utf-8编码的字段 2.mysql遗留问题   通过不断的查阅,我发现mysql的utf-8并不是真正意义的utf-8,而utf8mb4才是真正意义上的utf8.。故我们以后使用mysql的时候还是使用utf8mb4的编码比较恰当。 来源: CSDN 作者: 苦逼的大倪 链接: https://blog.csdn.net/qq_40851232/article/details/104745545