贝叶斯

数据挖掘——基于sklearn包的分类算法小结

ぃ、小莉子 提交于 2020-04-30 02:06:51
   目录 一、分类算法简介 二、KNN算法 三、贝叶斯分类算法 四、决策树算法 五、随机森林算法 六、SVM算法 一、分类算法简介 1、概念   1.1 监督学习(Supervised Learning)   从给定标注(训练集有给出明确的因变量Y)的训练数据集中学习出一个函数,根据这个函数为新数据进行标注。   1.2 无监督学习(Unsupervised Learning)   从给定无标注(训练集无明确的因变量Y)的训练数据中学习出一个函数,根据这个函数为所有数据标注。   1.3 分类 (Classification)   分类算法通过对已知类别训练数据集的分析,从中发现分类规则,以此预测新数据的类别, 分类算法属于监督学习 。 2、常用的分类算法 KNN算法(K-近邻分类算法) 贝叶斯算法 决策树算法 随机森林算法 SVM算法(支持向量机) 3、分类问题的验证方法 交叉验证(Cross Validation):训练集与测试集 K折交叉验证(K-fold Cross Validation) :设置k=10,那么我们把原来的数据集随机分为10份,分别为{D1,D2,D3...D10} 接着,使用D1作为测试集,{D2,D3...D10}作为训练集,计算得分S1 使用D2作为测试集,{D1,D3...D10}作为训练集,计算得分S2 ......... 最后

再谈Lasso回归 | elastic net | Ridge Regression

孤人 提交于 2020-04-29 13:25:11
前文: Lasso linear model实例 | Proliferation index | 评估单细胞的增殖指数 参考:LASSO回歸在生物醫學資料中的簡單實例 - 生信技能树 Linear least squares, Lasso,ridge regression有何本质区别? 你应该掌握的七种回归技术 (好文,解释了各个回归的特点,以及分别应用在什么场合) 热门数据挖掘模型应用入门(一): LASSO 回归 - 侯澄钧 Feature Selection using LASSO - 原文论文 (英文的讲解更全面,更好理解,强烈推荐阅读) 这幅图解释了为什么LASSO会让大部分的β j (λ) = 0 假设一个二维模型对应的系数是 β1 和 β2,然后 β 是最小化误差平方和的点, 即用传统线性回归得到的自变量系数。 但我们想让这个系数点必须落在蓝色的正方形内,所以就有了一系列围绕 β 的同心椭圆, 其中最先与蓝色正方形接触的点,就是符合约束同时最小化误差平方和的点。 两篇经典文章: Prediction of clinical outcome in glioblastoma using a biologically relevant nine-microRNA signature Reconstruction of enhancer–target networks in

20179214 2017-2018-2 《密码与安全新技术》第六次作业

心已入冬 提交于 2020-04-27 19:35:26
学号 2017-2018-2 《密码与安全新技术》第六周作业 课程:《密码与安全新技术》 班级: 201792 姓名: 刘胜楠 学号:20179214 上课教师:谢四江 上课日期:2018年X月X日 必修/选修: 必修 学习内容 ###模式识别导论 概念: 模式识别(英语:Pattern Recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展,人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统。 模式识别的主要方法 根据问题的描述方法 基于知识的模式识别方法:以专家系统为代表,根据人们已知的(从专家那里收集整理得到的)知识,整理出若干描述特征与类别间关系的准则,建立一定的计算机推理系统,再对未知样本决策其类别。 基于数据的模式识别方法:制定描述研究对象的描述特征,收集一定数量的已知样本作为训练集训练一个模式识别机器,再对未知样本预测其类别(主要研究内容) 研究进展 模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴,二是在给定的任务下

优秀博士论文精华版:面向互联网金融微观对象的数据挖掘方法

柔情痞子 提交于 2020-04-27 10:52:52
      摘 要   近些年,互联网金融市场的蓬勃发展对传统金融行业造成了巨大冲击;与此同时,互联 网金融市场中积累的海量用户和交易数据为研究智能化、个性化、精准化的服务提供了 支持。本文通过大数据驱动的研究方法,分别针对互联网金融平台中的参与三方——用 户、金融产品和市场管理进行了系统性的研究。在真实互联网金融数据上的实验结果验 证了本研究中所提出方法的有效性。    关 键 字   互联网金融;微观对象;数据挖掘;行为分析;推荐系统    0 引言   互联网金融是指传统金融机构或者互联网企 业利用互联网等信息技术实现资金融通、支付、 投资和信息中介等服务的新型金融业务模式。互联网金融是目前金融科技(Fintech)领域的重要 形态和研究对象之一。相比于传统金融,互联网金融具有效率高、成本低、范围广、操作方便等优势。但是,互联网金融模式也在一定程度上造成了金融市场门槛降低、市场流动性增大,以及监管困难等问题。   互联网金融市场的易变性和业务复杂性对传统经济学、金融学的研究范式提出了挑战。与此同时,互联网金融市场中积累的海量用户和交易数据,也为研究者深入探索互联网环境下金融市场的潜在价值,解决互联网金融市场中存在的问题,开发大数据驱动的智慧金融服务带来了全新的机遇。   基于以上背景,本文调研了互联网金融的现状,并采用数据驱动的研究方法对互联网金融市场的主要微观对象(用户

机器学习理论学习:朴素贝叶斯

人盡茶涼 提交于 2020-04-23 06:04:33
最近一直在看《统计学习方法》,打算先把理论搞明白,后续将着重用c++实现下自己ml库,计划就是这样,好好干吧。其实在平常中使用这个算法比较少,但他主要的优势是在少量,几十或几百张样本的情况下,都能表现得非常好。但如果你有大量得数据几千以上得话,这个算法你可以尝试一下,毕竟她得运行速度比较快。另外,相对于其他机器学习算法,这种概率模型得可解释性非常好,简单说就是容易理解。关于朴素贝叶斯有好多种分支,如高斯、多项式等,也有好多评价方法,如布里尔、对数似然函数以及还可以通过可靠性曲线来评估等,毕竟朴素贝叶斯得可调参数太少了,所以,如果你想用朴素贝叶斯,但苦于没啥可调得,可以尝试可靠性曲线校正,也许有意外惊喜啊,这你不多作介绍,有兴趣得可以自己研究。废话不多说,直接开始吧。 目录 一、概述 二、朴素贝叶斯的学习与分类 三、朴素贝叶斯法的参数估计 3.1、朴素贝叶斯算法 四、探索贝叶斯:贝叶斯样本的不均衡问题 朴素贝叶斯是根据贝叶斯定理和特征条件独立的分类方法。对于给定数据集,首先会根据特征条件独立的假设计算输入输出联合概率分布,然后基于此模型,对给定的输入,利用贝叶斯定理求出后验概率最大化输出。这里需要说明的是,朴素贝叶斯算法的前提条件是特征之间条件独立,如果特征之间有相互关系,那么该算法效果也不怎么样。同时,对于高维特征,贝叶斯算法只需很少数据下也能表现的很好,而且速度快

python机器学习(1)

江枫思渺然 提交于 2020-04-21 05:18:49
目录 朴素贝叶斯算法的中文邮件分类 1.朴素贝叶斯算法原理 2.项目简介 3.项目步骤 4.代码 5.结果   我有新开了一个专栏,讲解python机器学习的一些实例,本次要学习的是朴素贝叶斯算法的中文邮件分类。 朴素贝叶斯算法的中文邮件分类 1.朴素贝叶斯算法原理   贝叶斯理论:根据一个已发生事件的概率计算另一个事件发生的概率。   朴素:在整个过程中只做最原始,最简单的假设,例如假设特征之间相互独立并且特征同等重要。   简单逻辑:用此算法进行分类时,计算未知样本属于已知类的概率,然后选择概率最大的样本作为分类结果,   简介:朴素贝叶斯分类器发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。贝叶斯方法是以贝叶斯理论为基础,使用概率统计的知识对样本数据集进行分类,误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。在数据集较大的情况下表现出较高的准确率。   朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。属性变量比重差不多,极大地简化了贝叶斯方法的复杂性,但分类效果有所降低。 2.项目简介   项目是利用朴素贝叶斯算法对中文邮件进行分类,邮件有垃圾和非垃圾邮件,统计出现最多的有效词汇,然后统计每个邮件里的有效词汇分别在这个文件里出现的次数

【课程学习】课程2:十行代码高效完成深度学习POC

情到浓时终转凉″ 提交于 2020-04-19 16:11:59
本文用户记录黄埔学院学习的心得,并补充一些内容。 课程2:十行代码高效完成深度学习POC,主讲人为百度深度学习技术平台部:陈泽裕老师。 因为我是CV方向的,所以内容会往CV方向调整一下,有所筛检。 课程主要有以下三个方面的内容: 深度学习POC的基本流程 实用预训练模型应用工具快速验证 通用模型一键检测 十行代码完成工业级文本分类 自动化调参AutoDL Finetuner 一、深度学习POC的基本流程 1.1 深度学习发展历程 2006年,这一年多伦多大学的Geoffrey Hinton教授发表的论文,提出了两个重要观点:(1)多层的神经网络模型有很强的特征学习能力,深度学习模型能够学习到的数据更本质的特征;(2)对于深度神经网络获得全局最优解的问题,可以采用逐层训练方法解决。自此,深度学习迅速发展。2007年,深度学习框架Theano发布,用于优化多维数组的计算。2011年,深度学习首先在语音识别领域取得突破。2012年,Krizhevsky等人首次将卷积神经网络应用至ImageNet图像识别大赛,大获全胜。随后,深度学习在自然语言处理、图像识别等多个领域遍地开发。2016年,基于深度强化学习的AlphaGo战胜李世石,大放异彩,以深度学习为代表的人工智能技术在广大群众中热议。2019年,三位深度学习之父:Geoffrey Hinton, Yann LeCun,和Yoshua

数据分析中常用的五个统计学基本概念,你懂几个?

落花浮王杯 提交于 2020-04-17 14:02:06
【推荐阅读】微服务还能火多久?>>> 在回答数据分析入门要具备什么样的能力的问题中,我经常提到统计学知识,统计学是一种利用数学理论来进行数据分析的技术,通过统计学我们可以用更富有信息驱动力和针对性的方式对数据进行操作。 在数据分析工作中,利用统计学,我们可以更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构确定数据分析的方法,来获取更多的信息。今天给大家介绍数据分析中常用的五个统计基本概念。 特征统计 特征统计可能是数据科学中最常用的统计学概念。它是你在研究数据集时经常使用的统计技术,包括 偏差、方差、平均值、中位数、百分数 等等。理解特征统计并且在代码中实现都是非常容易的。请看下图: 上图中,中间的直线表示数据的中位数。中位数用在平均值上,因为它对异常值更具有鲁棒性。第一个四分位数本质上是第二十五百分位数,即数据中的25%要低于该值。第三个四分位数是第七十五百分位数,即数据中的75%要低于该值。而最大值和最小值表示该数据范围的上下两端。 箱形图很好地说明了基本统计特征的作用: 当箱形图很短时,就意味着很多数据点是相似的,因为很多值是在一个很小的范围内分布; 当箱形图较高时,就意味着大部分的数据点之间的差异很大,因为这些值分布的很广; 如果中位数接近了底部,那么大部分的数据具有较低的值。如果中位数比较接近顶部,那么大多数的数据具有更高的值。基本上

线性代数和概率论——机器学习基础

十年热恋 提交于 2020-04-16 21:37:12
【推荐阅读】微服务还能火多久?>>> [toc] 一、线性代数 万事万物都可以被抽象成某些特征的组合,线性代数的本质是将具体事物抽象为数学对象,描述其静态和动态的特征。 常见概念 标量(scalar) 一个标量 a 可以是整数、实数或复数 向量(vector) 多个标量 a1,a2,⋯,an 按一定顺序组成一个序列。通常用一维数组表示,例如语音信号 矩阵(matrix) 矩阵包含向量,一个m*n的矩阵,可以看成是由n个m维的列向量构成,也可以看成是由m个n维的行向量构成。通过用二维数组表示,例如灰度图像 张量(tensor) 张量就是高阶的矩阵,如果把三阶魔方的每一个小方块看作一个数,它就是个 3×3×3 的张量,3×3 的矩阵则恰是这个魔方的一个面,也就是张量的一个切片。通过用三维乃至更高维度的数组表示,例如RGB图像 范数(norm) 对单个向量大小的度量,描述的是向量自身的性质,将向量映射为一个非负的数值。 内积(inner product) 两个向量之间的相对位置,即向量之间的夹角。计算的则是两个向量之间的关系 线性空间(linear space) 一个集合,元素是具有相同维数的向量(可以是有限个或无限个), 并且定义了加法和数乘等结构化的运算 内积空间(inner product space) 定义了内积运算的线性空间 正交基(orthogonal basis)

2.中文文本分类实战

Deadly 提交于 2020-04-13 15:08:33
【今日推荐】:为什么一到面试就懵逼!>>>   这这一篇博客中,将系统介绍中文文本分类的流程和相关算法。先从文本挖掘的大背景开始,以文本分类算法为中心,介绍中文文本分类项目的流程以及相关知识,知识点涉及中文分词,向量空间模型,TF-IDF方法,几个典型的文本分类算法和评价指标等。   本篇主要有:   朴素的贝叶斯算法   KNN最近邻算法。 2.1 文本挖掘与文本分类的概念   简单来说,文本挖掘就是从已知的大量文本数据中提取一些未知的最终可能用过的知识的过程,也就是从非结构化的文本中寻找知识的过程。文本挖掘主要领域有: 搜索和信息检索:存储和文本文档的检索,包括搜索引擎和关键字搜索。 文本聚类:使用聚类方法,对词汇,片段,段落或者文件进行分组和归类。 文本分类:对片段,段落或文件进行分组和归类,在使用数据挖掘分类方法的基础上,经过训练地标记示例模型。 Web挖掘:在互联网上进行数据和文本的挖掘,并特别关注网络的规模和相互联系。 信息抽取:从非结构化文本中识别与提取有关的事实和关系;从非结构化或半结构化文本中抽取出结构化数据的过程。 自然语言处理:将言语作为一种有意义,有规则的系统符号,在底层解析和理解语言的任务。 概念提取:把单词和短语按语义分成意义相似的组。   在分析机器学习的数据源中最常见的知识发现主题是把数据对象或者是事件转换为预定的类别,再根据类别进行专门的处理