iris | 易学教程

Python机器学习笔记：朴素贝叶斯算法

阅读更多关于 Python机器学习笔记：朴素贝叶斯算法

　　朴素贝叶斯是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。对于大多数的分类算法，在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。比如决策树，KNN，逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数，要么是条件分布。但是朴素贝叶斯却是生成方法，该算法原理简单，也易于实现。 1，基本概念　　朴素贝叶斯：贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯分类时贝叶斯分类中最简单，也是最常见的一种分类方法。　　贝叶斯公式：（X：特征向量， Y：类别）　　先验概率P(X) ：先验概率是指根据以往经验和分析得到的概率。　　后验概率P(Y|X) ：事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，后验分布P(Y|X)表示事件X已经发生的前提下，事件Y发生的概率，叫做事件X发生下事件Y的条件概率。　　后验概率P(X|Y) ：在已知Y发生后X的条件概率，也由于知道Y的取值而被称为X的后验概率。　　朴素：朴素贝叶斯算法是假设各个特征之间相互独立，也是朴素这词的意思那么贝叶斯公式中的P(X|Y)可写成：　　朴素贝叶斯公式： 2，贝叶斯算法简介　　NaiveBayes算法，又称朴素贝叶斯算法。朴素：特征条件独立；贝叶斯

GO语言第一天(自学)

阅读更多关于 GO语言第一天(自学)

GO语言我发现需求量有点上去啊？！然后自己开始从网上东拼西凑搜索各种知识点，发现太散了..........，往往一个功能就要打开好几个网页，为了方便，于是我开始整理那些三碎的知识点，顺便学习一下GO语言吧，我习惯在Linux下操作，所以............. 首先，先下载GO语言................ https://golang.google.cn/dl/ 嗯..........没毛病，下载完之后进行解压安装 [root@localhost GO] # pwd /GO # 我的下载路径 [root@localhost GO] # ls go1.10.2.linux- amd64.tar.gz [root@localhost GO] # tar -C /usr/local -xzf go1.10.2.linux-amd64.tar.gz # 解压 [root@localhost GO] # export PATH=$PATH:/usr/local/go/bin # 加入变量 [root@localhost GO] # go version # 查看版本 go version go1.10.2 linux/ amd64 [root@localhost GO] # 上面执行完毕之后，你认为go语言就彻底完了吗？没有，不信你重启一下系统，再输入查看版本...........

【sklearn】from sklearn.extermals import joblib（保存模型和加载模型）

阅读更多关于【sklearn】from sklearn.extermals import joblib（保存模型和加载模型）

原创博文，转载请注明出处！ sklearn中保存和加载模型的方法 1.载入模块 1 from sklearn.externals import joblib 2.保存模型 1 joblib. dump (model,'filename.pkl') 3.加载模型 1 model = joblib. load ('filename.pkl') 4.例子 1 # -*- coding: utf-8 -*- 2 " "" 3 # 作者：wanglei5205 4 # 邮箱：wanglei5205@126.com 5 # 博客：http: //cnblogs.com/wanglei5205 6 # github：http: //github.com/wanglei5205 7 " "" 8 ### 导入模块 9 from sklearn.datasets import load_iris 10 from sklearn import svm 11 from sklearn.externals import joblib 12 13 iris = load_iris() 14 x,y = iris. data ,iris.target 15 16 model = svm.SVC() 17 model.fit(x,y) 18 19 joblib. dump (model,'dump_model

Seaborn数据可视化入门

阅读更多关于 Seaborn数据可视化入门

在本节学习中，我们使用Seaborn作为数据可视化的入门工具 Seaborn的官方网址如下：http://seaborn.pydata.org 一：definition Seaborn is a Python data visualization library based on matplotlib . It provides a high-level interface for drawing attractive and informative statistical graphics. Seaborn是基于matplotlib的数据可视化库，它的主要功能是做数据可视化二：Setup the notebook 对数据进行初始化，引入相应的包 import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns pirnt("Setup Complete") 三: Load the data 加载数据 file_path = "../input/fifa.csv" fifa_data = pd.read_csv(file_path, index_col="Date", parse_Dates=True) 注： file_path: 表示dataset的路径

镜头主要参数工业相机镜头的参数与选型

阅读更多关于镜头主要参数工业相机镜头的参数与选型

一、镜头主要参数　　1.焦距(FocalLength) 　　焦距是从镜头的中心点到胶平面上所形成的清晰影像之间的距离（注意！，相机的焦距与单片凸透镜的焦距是两个概念，因为相机上安装的镜头是多片薄的凸透镜组成，单片凸透镜的焦距是平行光线汇聚到一点，这点到凸透镜中心的距离）。焦距的大小决定着视角的大小，焦距数值小，视角大，所观察的范围也大;焦距数值大，视角小，观察范围小。根据焦距能否调节，可分为定焦镜头和变焦镜头两大类。　　2.光圈(Iris) 　　用F表示，以镜头焦距f和通光孔径D的比值来衡量。每个镜头上都标有最大F值，例如　8mm　/F1.4代表最大孔径为　5.7毫米　。F值越小，光圈越大，F值越大，光圈越小。　　3.对应最大CCD尺寸(SensorSize) 　　镜头成像直径可覆盖的最大CCD芯片尺寸。主要有：1/2″、2/3″、1″和1″以上。　　4.接口(Mount) 　　镜头与相机的连接方式。常用的包括C、CS、F、V、T2、Leica、M42x1、M75x0.75等。　　5.景深(Depth ofField,DOF) 　　景深是指在被摄物体聚焦清楚后，在物体前后一定距离内，其影像仍然清晰的范围。景深随镜头的光圈值、焦距、拍摄距离而变化。光圈越大，景深越小;光圈越小、景深越大。焦距越长，景深越小;焦距越短，景深越大。距离拍摄体越近时，景深越小;距离拍摄体越远时

sklearn之KNN详解+GridSearchCV使用方法

阅读更多关于 sklearn之KNN详解+GridSearchCV使用方法

在了解了KNN的基本原理之后，我们需要学习如何在sklearn中调用KNN算法以及如何用GridSearchCV进行调参首先导入必要的库以及我们所使用的数据集：iris 1 from sklearn.neighbors import KNeighborsClassifier 2 from sklearn import datasets 3 from sklearn.model_selection import GridSearchCV 4 from sklearn.model_selection import train_test_split 5 iris = datasets.load_iris() 6 data = iris.data 7 label = iris.target 由于KNN对极端数据比较敏感，所以一般会对数据进行归一化，此处数据集比较友好就没有归一化了将整个的数据集分成训练集和测试集，并创建一个KNN分类器对象 1 X_train,X_test,y_train,y_test = train_test_split(data,label,test_size=0.3,random_state=2 ) 2 knn_clf = KNeighborsClassifier() 由于sklearn中的KNN方法有很多超参数，所以需要调参，这里只介绍常用的超参数：

InterSystems公开发布数据库管理系统速度测试（Speed Test），用户可自定义测试需求

阅读更多关于 InterSystems公开发布数据库管理系统速度测试（Speed Test），用户可自定义测试需求

经ESG集团验证，在速度测试中，InterSystems IRIS®数据平台的性能优于其他主流数据库。 7月21日，中国北京– 致力于帮助客户创造性地解决最关键的可扩展性、互操作性和系统速度问题的数据技术提供商 InterSystems公布了一项针对其旗舰产品InterSystems IRIS®数据平台的速度测试（Speed Test）。该测试是一个可自定义的事务分析型应用程序，用来测试并发的实时数据摄取和查询性能，访问者可在本地或AWS云端轻松运行该测试，以比较InterSystems IRIS和其他领先的数据库管理系统（DBMS）供应商的性能。 ESG集团已验证了该测试及测试结果的可靠性和公平性。ESG比较了InterSystems IRIS与其他主流的事务型和分析型数据库的性能参数，包括各数据库摄取的记录数、数据摄取速度、摄取速度随时间的变化、查询的记录数，以及查询的响应时间。ESG发布的结果表明，InterSystems IRIS的性能超过许多其他主流数据库。 InterSystems欢迎用户自行验证测试结果。该速度测试（Speed Test）结果是开源的、可自定义的，用户可轻松修改测试数据和查询，使测试更加符合自身的测试要求，并使用InterSystems IRIS和其他领先供应商平台自己运行测试，并比较测试结果。 InterSystems产品管理总监Jeff

深度学习模型处理多标签（multi_label）分类任务——keras实战

阅读更多关于深度学习模型处理多标签（multi_label）分类任务——keras实战

最近在读论文的的过程中接触到多标签分类(multi-label classification)的任务，必须要强调的是多标签（multi-label）分类任务和多分类(multi-class)任务的区别：多标签分类任务指的是一条数据可能有一个或者多个标签，举个例子：比如一个病人的体检报告，它可能被标记上，高血压，高血糖等多个标签。多分类任务指的是一条数据只有一个标签，但是标签有多种类别。机器学习中比较经典的iris鸢尾花数据集就是标准的多分类任务，一条数据喂给模型，模型需判断它是3个类别中的哪一个。这里笔者强调一下多标签分类任务的两个特点：类别标的数量是不确定的，有些样本可能只有一个类标，有些样本可能存在多个类别标签。类别标签之间可能存在相互依赖关系，还是拿我上述的例子来说：如果一个人患有高血压，他有心血管疾病的概率也会变大，所以高血压这个label和心血管疾病的那些labels是存在一些依赖关系的。多标签分类算法简介多标签分类算法比较常用的有ML-KNN、ML-DT、Rank-SVM、CML等。我就不多介绍这些基于传统机器学习的方法，感兴趣的同学可以自己去研究。这里主要介绍如何采用深度学习模型做多标签分类任务，首先我们必须明确一下多标签分类模型的输入和输出。模型输入输出假设我们有一个体检疾病判断任务

初识svm及sklearn实现

阅读更多关于初识svm及sklearn实现

1、初识svm 支持向量机（Support Vector Machine,SVM），主要用于小样本下的二分类、多分类以及回归分析，是一种有监督学习的算法。基本思想是寻找一个超平面来对样本进行分割，把样本中的正例和反例用超平面分开，其原则是使正例和反例之间的间隔最大。svm的原理可以参考博客： https:// blog.csdn.net/zouxy09/a rticle/details/17291543 。 2、SVM实例（1）数据来源：Iris数据集，下载地址为： http:// archive.ics.uci.edu/ml/ datasets/Iris ，Iris.data中有5个属性，包括4个预测属性（萼片长度、萼片宽度、花瓣长度、花瓣宽度）和1个类别属性（Iris-setosa、Iris-versicolor、Iris-virginica三种类别）。首先，需要将第五列类别信息转换为数字，再选择输入数据和标签。 from sklearn import svm import numpy as np import matplotlib.pyplot as plt import matplotlib from sklearn.model_selection import train_test_split #定义字典，将字符与数字对应起来 def Iris_label ( s ):

Python：将iris数据通过近邻转化为图并展示出来

阅读更多关于 Python：将iris数据通过近邻转化为图并展示出来

import numpy as np from sklearn import datasets import networkx as nx from scipy.spatial.distance import pdist, squareform import matplotlib.pyplot as plt X, y = datasets.load_iris(return_X_y=True) N = X.shape[0] distlist = pdist(X,metric='euclidean') dist_Matrix = squareform(distlist) simi_Matrix = np.zeros((N,N)) neiNum = 5 for i in range(N): ordidx = np.argsort(dist_Matrix[i,:]) for j in range(neiNum+1): if i != ordidx[j]: simi_Matrix[i,ordidx[j]] = dist_Matrix[i, ordidx[j]] G = nx.Graph() for i in range(N): for j in range(N): if simi_Matrix[i,j] > 0: G.add_weighted_edges_from([(i,j,simi

订阅 iris