分类数据

k-近邻算法(KNN)

馋奶兔 提交于 2019-12-02 03:32:44
采用测量不同特征值之间的距离方法进行分类。 KNN 工作原理 1.假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。 2.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。 计算新数据与样本数据集中每条数据的距离。 对求得的所有距离进行排序(从小到大,越小表示越相似)。 取前 k (k 一般小于等于 20 )个样本数据对应的分类标签。 3.求 k 个数据中出现次数最多的分类标签作为新数据的分类。 KNN 开发流程 收集数据:任何方法 准备数据:距离计算所需要的数值,最好是结构化的数据格式 分析数据:任何方法 训练算法:此步骤不适用于 k-近邻算法 测试算法:计算错误率 使用算法:输入样本数据和结构化的输出结果,然后运行 k-近邻算法判断输入数据分类属于哪个分类,最后对计算出的分类执行后续处理 1 from numpy import * 2 import operator 3 4 5 def createDataSet(): 6 group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) 7 labels = ['A','A','B','B'] 8 return group,labels 9 10 def classify0(inX, dataSet, labels, k): 11

Oracle中SQL命令的分类

纵饮孤独 提交于 2019-12-02 01:58:20
  写SQL命令命令可以不区分大小写,但最终执行的时候是大写,下面介绍的时候为了看起来 方便,所以使用了小写。建议开发时使用大写。 DQL-----数据库查询语言:比如select   1、查询表中的某个字段   语法:select 字段名1,字段名2 from 表名   比如: select first_name,last_name from employees(在employee表中查询first_name还有last_name)   2、查询所有表中的所有字段   语法:select 所有字段 from 表名 或者 select * from 表名   注意:*代表所有字段的意思,但是在实际开发中,写*的效率相比直接写字段名要低,开发时不建议使用 DML----数据操纵语言:向表中添加数据(insert),修改数据(update),删除数据(delete)      1、 insert: 向表中添加数据   ---------- 向表中所有字段添加数据 语法: insert into 表名 values( 值 1 ,值 2, ….) 比如: insert into t_User values(2,' 张三 ',33,'13691153161',' 男 ',to_date('1999-10-10','yyyy-mm-dd'));  ---------- 向表中有选择的添加数据

神经网络学习笔记(2)

我们两清 提交于 2019-12-01 22:47:09
神经网络学习笔记(2)   本文是神经网络学习笔记的第二部分,紧接着笔者的 神经网络学习笔记(1) ,主要内容为对总结神经网络的常用配置方式,包括如下几点:(1)数据预处理;(2)权重初始化;(3)正则化与Dropout;(4)损失函数。    1、数据预处理   对于神经网络而言,数据的预处理常见的方法主要包括0-1归一化,主成分分析(PCA)及one-hot编码标签。   (1)0-1归一化:将样本所有维度的数据转变为以0为均值,1为标准差的新数据。处理方式为,对训练数据的每一个维度,分别计算其均值和标准差,然后将这一维度的数据分别减去均值然后除以标准差。至于为什么需要对数据进行这一处理,笔者也没有找到很好的解答,欢迎各位大牛在本文下面留言探讨;    注意: 当我们在进行归一化处理的时候,我们处理所用的数值(例如:均值和方差)只能够从训练集上面获得,然后将从训练集上计算得到的值直接应用到验证集/测试集上,而不是在验证集/测试集上面重新计算新值,或者直接从整体的数据集上面计算均值和方差然后再划分数据集。我想这还是为了保证模型泛化能力检测的公正性,避免验证集/测试集中的任何数据泄露到训练过程中。   (2)主成分分析(PCA):对于神经网络而言,该方法主要用于对数据进行降维(也可用于数据的压缩)。网络上面已经有很多文章对PCA的基本过程进行解读

数据建模基础

做~自己de王妃 提交于 2019-12-01 19:08:20
大数据分析场景和模型应用 数据分析建模需要先明确业务需求,然后选择是 描述型分析 还是 预测型分析。 如果分析的目的是描述目标行为模式,就采用描述型数据分析,描述型分析就考虑 关联规则、 序列规则 、 聚类 等模型。 如果是预测型数据分析,就是量化未来一段时间内,某个事件的发生概率。有两大预测分析模型, 分类预测 和 回归预测。 常见的数据建模分类 分类与回归 分类:是通过已有的训练样本去训练得到一个最优模型,再利用这个模型将输入映射为相应的输出,对输出进行简单的判断从 而实现分类的目的,也就具有了对未知数据进行分类的能力。 回归:是基于观测数据建立变量间适当的依赖关系,以分析数据内在的规律,得到响应的判断。并可用于预报、控制等问题。 应用: 信用卡申请人风险评估、预测公司业务增长量、预测房价,未来的天气情况等 原理: 回归:用属性的 历史数据 预测未来趋势。算法首先假设一些已知类型的函数可以匹配目标数据,然后分析匹配后的误差,确定 一个与目标数据匹配程度最好的函数。回归是对真实值的一种 逼近预测。 分类:将数据映射到 预先定义的 群组或类。算法要求基于数据 特征值 来定义类别,把具有某些特征的数据项映射到给定的某个 类别上。分类并没有逼近的概念,最终正确结果只有一个。 在机器学习方法里,分类属于监督学习。 区别: 分类模型采用 离散预测值,回归模型采用 连续的预测值。 聚类 聚类

耦合与内聚分类

蹲街弑〆低调 提交于 2019-12-01 15:39:58
耦合部分 耦合可以分为以下几种,它们之间的耦合度 由高到低 排列如下: (1) 内容耦合 :一个模块 直接访问另一模块的内容 ,则称这两个模块为内容耦合。 若在程序中出现下列情况之一,则说明两个模块之间发生了内容耦合: 1. 一个模块直接访问另一个模块的内部数据。 2. 一个模块不通过正常入口而直接转入到另一个模块的内部。 3. 两个模块有一部分代码重叠(该部分代码具有一定的独立功能)。 4. 一个模块有多个入口。 内容耦合可能在汇编语言中出现。大多数高级语言都已设计成不允许出现内容耦合。这种耦合的耦合性最强,模块独立性最弱。 (2) 公共耦合 :一组模块 都访问同一个全局数据结构 ,则称之为公共耦合。公共数据环境可以是全局数据结构、共享的通信区、内存的公共覆盖区等。如果模块只是向公共数据环境输入数据,或是只从公共数据环境取出数据,这属于比较松散的公共耦合;如果模块既向公共数据环境输入数据又从公共数据环境取出数据,这属于较紧密的公共耦合。 公共耦合会引起以下问题: 1. 无法控制各个模块对公共数据的存取,严重影响了软件模块的可靠性和适应性。 2. 使软件的可维护性变差。若一个模块修改了公共数据,则会影响相关模块。 3. 降低了软件的可理解性。不容易清楚知道哪些数据被哪些模块所共享,排错困难。 一般地,仅当模块间共享的数据很多且通过参数传递很不方便时,才使用公共耦合。 (3)

2 机器学习基础

送分小仙女□ 提交于 2019-12-01 15:30:14
2-1 机器学习世界的数据 基础概念 关于数据 鸢尾花数据集 https://en.wikipedia.org/wiki/Iris_flower_data_set 三类鸢尾花数据集 数据集描述: 数据整体叫数据集(data set) 每一行数据称为一个样本(sample) 除最后一列,每一列表达样本的一个特征(feature) 最后一列,称为标记(label) 数据整理,思维转化 选择两个特征绘制散点图 实际问题中,特征可以很抽象,如文字识别 2-2 机器学习的主要任务 分类 二分类 多分类 如数字识别 多标签分类 回归任务 此类问题即为回归任务 一些情况下,回归任务可以简化成分类任务 分类和回归 ,监督学习 2-3 监督学习,非监督学习,半监督学习和增强学习 分类和回归 ,从任务上进行分类; 从算法上进行分类,则分为监督学习,非监督学习,半监督学习和增强学习 1.监督学习 给机器的训练数据拥有“标记”或者“答案” 如猫狗识别,仅仅给出图片是不够的的,还需要给出标签,告诉机器,图像是什么。 再如文字识别 生活中的实际案例, 图像已经拥有了标定信息 银行已经积累了一定的客户信息和他们信用卡的信用情况 医院已经积累了一定的病人信息和他们最终确诊是否患病的情况 市场积累了房屋的基本信息和最终成交的金额 我们在这个课程中学习的大部分算法,属于监督学习算法 k近邻 线性回归和多项式回归

01-01 机器学习

大城市里の小女人 提交于 2019-12-01 12:47:54
目录 机器学习 一、学习目标 二、人工智能 三、机器学习 3.1 机器学习基本术语 四、深度学习 五、机器学习分类 5.1 监督学习 5.1.1 回归问题 5.1.2 分类问题 5.2 无监督学习 5.2.1 聚类 5.3 半监督学习 5.4 强化学习 六、Python语言的优势 七、小结 更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你: https://www.cnblogs.com/nickchen121/ 机器学习 可能有很多同学想到高大上的人工智能、机器学习和深度学习,会在怀疑我是否能学会。在自我怀疑之前,我希望你能考虑一个问题,你了解机动车的构造原理吗?难道你不了解机动车的构造就不能开车了吗?我们的机器学习也是如此,你只要拿到一张“驾驶证”,你就能很好的应用它,并且能通过本文的学习,快速的为公司、为企业直接创造价值。 机器学习已经不知不觉的走入了我们的生活,我们可能无法干涉它的崛起,也可能无法创建如十大算法一样的算法。但现如今生活的方方面面都有着机器学习的身影,为什么我们不试着去认识它呢,让我们能在机器学习彻底降临之前做好驾驭它的准备呢? 一、学习目标 了解人工智能、机器学习和深度学习之间的区别 掌握机器学习中的监督学习和无监督学习问题 二、人工智能 人工智能(artificial intelligence, AI):

软件测试的定义及分类的笔记&笔试面试题

冷暖自知 提交于 2019-12-01 07:57:36
文档:软件测试的定义及分类的笔记&笔试面试题 1、什么是软件 (1)软件是计算机程序、程序所用的数据以及有关文档资料的集合。 (2)软件是计算机的灵魂,软件可以分为两大类:系统软件和应用软件。 系统软件:系统软件是生成、准备和执行其他程序所需要的一组文件和程序。如操作系统Windows、数据库SQL Server、驱动程序、Java系统编译环境等。 应用软件:计算机用户为了解决某些具体问题而购买、开发或研制的各种程序或软件包。如App、QQ、微信等。 提问:软件测试的对象是什么? 程序、文档以及数据。 链接:http://note.youdao.com/noteshare?id=568829976ac345038943ad59047fb774 来源: https://www.cnblogs.com/ttsugar/p/11671214.html

java基础(28):数据库、表及表数据、SQL语句

感情迁移 提交于 2019-12-01 07:12:38
1. 数据库 1.1 数据库概述 什么是数据库 数据库就是存储数据的仓库,其本质是一个文件系统,数据按照特定的格式将数据存储起来,用户可以对数据库中的数据进行增加,修改,删除及查询操作。 什么是数据库管理系统 数据库管理系统( DataBase Management System , DBMS ):指一种操作和管理数据库的大型软件,用于建立、使用和维护数据库,对数据库进行统一管理和控制,以保证数据库的安全性和完整性。用户通过数据库管理系统访问 数据库中表内的数据。 常见的数据库管理系统 MYSQL :开源免费的数据库,小型的数据库 . 已经被 Oracle 收购了 .MySQL6.x 版本也开始收费。 Oracle :收费的大型数据库, Oracle 公司的产品。 Oracle 收购 SUN 公司,收购 MYSQL 。 DB2 : IBM 公司的数据库产品 , 收费的。常应用在银行系统中 . SQLServer : MicroSoft 公司收费的中型的数据库。 C# 、 .net 等语言常使用。 SyBase :已经淡出历史舞台。提供了一个非常专业数据建模的工具 PowerDesigner 。 SQLite : 嵌入式的小型数据库,应用在手机端。 Java 相关的数据库: MYSQL , Oracle . 这里使用 MySQL 数据库。 MySQL 中可以有多个数据库

01-机器学习概述

|▌冷眼眸甩不掉的悲伤 提交于 2019-12-01 02:23:26
机器学习不仅仅是一种简单的算法,还可以将其放在其他任何地方以获得奇妙的结果。机器学习是一个从定义数据开始,最终获得一定准确率的模型的过程。在本节中,我们将学习这个过程。 1.1.1. 问题定义 机器学习的过程从定义一个商业问题开始。机器学习的需求是什么?这个任务真的需要高级的预测算法来解决吗? 问题定义是非常重要的,它提供了更正式地思考解决方案的方向。它基本上处理两个问题。 A.问题是什么? 这个问题涵盖了问题的定义,并使问题变得更加正式。假设我们想要确认图像中是否包含人。 现在定义这个任务,将其分为任务(T)、经验(E)和性能(P)。 任务(T):根据图像中是否包含人对图像进行分类。 经验(E):带有是否包含人的标签的图像。 性能(P):错误率。在所有的分类图像中,错误预测的百分比是多少。错误率越低,准确率越高。 B.为什么这个问题需要解决方案? 这个问题更侧重于商业方面,它包括解决问题的动机和益处。 假如你是一个研究者,希望解决某个问题并发表论文,使之成为他人解决问题的基准,这可能就是你的动机。 关于你的问题其他需要确定的是,在没有安全措施的情况下,夜间在银行的自动取款机上是否有人类活动(假设所要解决的问题与自动取款机的安全有关)。 还需要定义可以使用此解决方案的场景。这是一个通用型的解决方案,还是为特定任务(ATM传感器中的检测人员)所设计的呢?解决方案的失效日期是什么时候