iris

Python机器学习笔记:朴素贝叶斯算法

↘锁芯ラ 提交于 2020-11-14 03:58:51
  朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数,要么是条件分布。但是朴素贝叶斯却是生成方法,该算法原理简单,也易于实现。 1,基本概念   朴素贝叶斯 :贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类时贝叶斯分类中最简单,也是最常见的一种分类方法。   贝叶斯公式 : (X:特征向量, Y:类别)   先验概率P(X) :先验概率是指根据以往经验和分析得到的概率。   后验概率P(Y|X) :事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,后验分布P(Y|X)表示事件X已经发生的前提下,事件Y发生的概率,叫做事件X发生下事件Y的条件概率。   后验概率P(X|Y) :在已知Y发生后X的条件概率,也由于知道Y的取值而被称为X的后验概率。   朴素 :朴素贝叶斯算法是假设各个特征之间相互独立,也是朴素这词的意思那么贝叶斯公式中的P(X|Y)可写成:   朴素贝叶斯公式 : 2,贝叶斯算法简介   NaiveBayes算法,又称朴素贝叶斯算法。朴素:特征条件独立;贝叶斯

GO语言第一天(自学)

爱⌒轻易说出口 提交于 2020-11-11 07:27:56
GO语言我发现需求量有点上去啊?!然后自己开始从网上东拼西凑搜索各种知识点,发现太散了..........,往往一个功能就要打开好几个网页,为了方便,于是我开始整理那些三碎的知识点,顺便学习一下GO语言吧,我习惯在Linux下操作,所以............. 首先,先下载GO语言................ https://golang.google.cn/dl/ 嗯..........没毛病,下载完之后进行解压安装 [root@localhost GO] # pwd /GO # 我的下载路径 [root@localhost GO] # ls go1.10.2.linux- amd64.tar.gz [root@localhost GO] # tar -C /usr/local -xzf go1.10.2.linux-amd64.tar.gz # 解压 [root@localhost GO] # export PATH=$PATH:/usr/local/go/bin # 加入变量 [root@localhost GO] # go version # 查看版本 go version go1.10.2 linux/ amd64 [root@localhost GO] # 上面执行完毕之后,你认为go语言就彻底完了吗?没有,不信你重启一下系统,再输入查看版本...........

【sklearn】from sklearn.extermals import joblib(保存模型和加载模型)

余生颓废 提交于 2020-11-08 05:49:50
原创博文,转载请注明出处! sklearn中保存和加载模型的方法 1.载入模块 1 from sklearn.externals import joblib 2.保存模型 1 joblib. dump (model,'filename.pkl') 3.加载模型 1 model = joblib. load ('filename.pkl') 4.例子 1 # -*- coding: utf-8 -*- 2 " "" 3 # 作者:wanglei5205 4 # 邮箱:wanglei5205@126.com 5 # 博客:http: //cnblogs.com/wanglei5205 6 # github:http: //github.com/wanglei5205 7 " "" 8 ### 导入模块 9 from sklearn.datasets import load_iris 10 from sklearn import svm 11 from sklearn.externals import joblib 12 13 iris = load_iris() 14 x,y = iris. data ,iris.target 15 16 model = svm.SVC() 17 model.fit(x,y) 18 19 joblib. dump (model,'dump_model

Seaborn数据可视化入门

假装没事ソ 提交于 2020-11-01 20:02:28
在本节学习中,我们使用Seaborn作为数据可视化的入门工具 Seaborn的官方网址如下:http://seaborn.pydata.org 一:definition Seaborn is a Python data visualization library based on matplotlib . It provides a high-level interface for drawing attractive and informative statistical graphics. Seaborn是基于matplotlib的数据可视化库,它的主要功能是做数据可视化 二:Setup the notebook 对数据进行初始化,引入相应的包 import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns pirnt("Setup Complete") 三: Load the data 加载数据 file_path = "../input/fifa.csv" fifa_data = pd.read_csv(file_path, index_col="Date", parse_Dates=True) 注: file_path: 表示dataset的路径

镜头主要参数工业相机镜头的参数与选型

孤者浪人 提交于 2020-11-01 06:26:55
一、 镜头主要参数   1.焦距(FocalLength)   焦距是从镜头的中心点到胶平面上所形成的清晰影像之间的距离(注意!,相机的焦距与单片凸透镜的焦距是两个概念,因为相机上安装的镜头是多片薄的凸透镜组成,单片凸透镜的焦距是平行光线汇聚到一点,这点到凸透镜中心的距离)。焦距的大小决定着视角的大小,焦距数值小,视角大,所观察的范围也大;焦距数值大,视角小,观察范围小。根据焦距能否调节,可分为定焦镜头和变焦镜头两大类。   2.光圈(Iris)   用F表示,以镜头焦距f和通光孔径D的比值来衡量。每个镜头上都标有最大F值,例如 8mm /F1.4代表最大孔径为 5.7毫米 。F值越小,光圈越大,F值越大,光圈越小。   3.对应最大CCD尺寸(SensorSize)   镜头成像直径可覆盖的最大CCD芯片尺寸。主要有:1/2″、2/3″、1″和1″以上。   4.接口(Mount)   镜头与相机的连接方式。常用的包括C、CS、F、V、T2、Leica、M42x1、M75x0.75等。   5.景深(Depth ofField,DOF)   景深是指在被摄物体聚焦清楚后,在物体前后一定距离内,其影像仍然清晰的范围。景深随镜头的光圈值、焦距、拍摄距离而变化。光圈越大,景深越小;光圈越小、景深越大。焦距越长,景深越小;焦距越短,景深越大。距离拍摄体越近时,景深越小;距离拍摄体越远时

sklearn之KNN详解+GridSearchCV使用方法

一笑奈何 提交于 2020-10-28 10:30:22
在了解了KNN的基本原理之后,我们需要学习如何在sklearn中调用KNN算法以及如何用GridSearchCV进行调参 首先导入必要的库以及我们所使用的数据集:iris 1 from sklearn.neighbors import KNeighborsClassifier 2 from sklearn import datasets 3 from sklearn.model_selection import GridSearchCV 4 from sklearn.model_selection import train_test_split 5 iris = datasets.load_iris() 6 data = iris.data 7 label = iris.target 由于KNN对极端数据比较敏感,所以一般会对数据进行归一化,此处数据集比较友好就没有归一化了 将整个的数据集分成训练集和测试集,并创建一个KNN分类器对象 1 X_train,X_test,y_train,y_test = train_test_split(data,label,test_size=0.3,random_state=2 ) 2 knn_clf = KNeighborsClassifier() 由于sklearn中的KNN方法有很多超参数,所以需要调参,这里只介绍常用的超参数:

InterSystems公开发布数据库管理系统速度测试(Speed Test),用户可自定义测试需求

房东的猫 提交于 2020-10-25 10:59:03
经ESG集团验证,在速度测试中,InterSystems IRIS®数据平台的性能优于其他主流数据库。 7月21日,中国 北京– 致力于帮助客户创造性地解决最关键的可扩展性、互操作性和系统速度问题的数据技术提供商 InterSystems公布了一项针对其旗舰产品InterSystems IRIS®数据平台的速度测试(Speed Test)。该测试是一个可自定义的事务分析型应用程序,用来测试并发的实时数据摄取和查询性能,访问者可在本地或AWS云端轻松运行该测试,以比较InterSystems IRIS和其他领先的数据库管理系统(DBMS)供应商的性能。 ESG集团已验证了该测试及测试结果的可靠性和公平性。ESG比较了InterSystems IRIS与其他主流的事务型和分析型数据库的性能参数,包括各数据库摄取的记录数、数据摄取速度、摄取速度随时间的变化、查询的记录数,以及查询的响应时间。ESG发布的结果表明,InterSystems IRIS的性能超过许多其他主流数据库。 InterSystems欢迎用户自行验证测试结果。该速度测试(Speed Test)结果是开源的、可自定义的,用户可轻松修改测试数据和查询,使测试更加符合自身的测试要求,并使用InterSystems IRIS和其他领先供应商平台自己运行测试,并比较测试结果。 InterSystems产品管理总监Jeff

深度学习模型处理多标签(multi_label)分类任务——keras实战

坚强是说给别人听的谎言 提交于 2020-10-25 09:41:32
最近在读论文的的过程中接触到多标签分类(multi-label classification)的任务,必须要强调的是多标签(multi-label)分类任务 和 多分类(multi-class)任务的区别: 多标签分类任务 指的是一条数据 可能有一个或者多个标签 ,举个例子:比如一个病人的体检报告,它可能被标记上,高血压,高血糖等多个标签。 多分类任务 指的是一条数据 只有一个标签,但是标签有多种类别 。机器学习中比较经典的iris鸢尾花数据集就是标准的多分类任务,一条数据喂给模型,模型需判断它是3个类别中的哪一个。 这里笔者强调一下多标签分类任务的两个特点: 类别标的数量是不确定的 ,有些样本可能只有一个类标,有些样本可能存在多个类别标签。 类别标签之间可能存在相互依赖关系 ,还是拿我上述的例子来说:如果一个人患有高血压,他有心血管疾病的概率也会变大,所以高血压这个label和心血管疾病的那些labels是存在一些依赖关系的。 多标签分类算法简介 多标签分类算法比较常用的有ML-KNN、ML-DT、Rank-SVM、CML等。我就不多介绍这些基于传统机器学习的方法,感兴趣的同学可以自己去研究。这里主要介绍如何采用深度学习模型做多标签分类任务,首先我们必须明确一下多标签分类模型的输入和输出。 模型输入输出 假设我们有一个 体检疾病判断任务

初识svm及sklearn实现

隐身守侯 提交于 2020-10-24 06:18:37
1、初识svm 支持向量机(Support Vector Machine,SVM),主要用于小样本下的二分类、多分类以及回归分析,是一种有监督学习的算法。基本思想是寻找一个超平面来对样本进行分割,把样本中的正例和反例用超平面分开,其原则是使正例和反例之间的间隔最大。svm的原理可以参考博客: https:// blog.csdn.net/zouxy09/a rticle/details/17291543 。 2、SVM实例 (1)数据来源:Iris数据集,下载地址为: http:// archive.ics.uci.edu/ml/ datasets/Iris ,Iris.data中有5个属性,包括4个预测属性(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和1个类别属性(Iris-setosa、Iris-versicolor、Iris-virginica三种类别)。首先,需要将第五列类别信息转换为数字,再选择输入数据和标签。 from sklearn import svm import numpy as np import matplotlib.pyplot as plt import matplotlib from sklearn.model_selection import train_test_split #定义字典,将字符与数字对应起来 def Iris_label ( s ):

Python:将iris数据通过近邻转化为图并展示出来

痴心易碎 提交于 2020-10-16 13:19:54
import numpy as np from sklearn import datasets import networkx as nx from scipy.spatial.distance import pdist, squareform import matplotlib.pyplot as plt X, y = datasets.load_iris(return_X_y=True) N = X.shape[0] distlist = pdist(X,metric='euclidean') dist_Matrix = squareform(distlist) simi_Matrix = np.zeros((N,N)) neiNum = 5 for i in range(N): ordidx = np.argsort(dist_Matrix[i,:]) for j in range(neiNum+1): if i != ordidx[j]: simi_Matrix[i,ordidx[j]] = dist_Matrix[i, ordidx[j]] G = nx.Graph() for i in range(N): for j in range(N): if simi_Matrix[i,j] > 0: G.add_weighted_edges_from([(i,j,simi