iris

mysql之Query Cache

人盡茶涼 提交于 2020-04-17 08:46:20
【推荐阅读】微服务还能火多久?>>> 1,QueryCache的实现原理;   1、目前只有select语句会被cache,其他类似show,use的语句则不会被cache。   2、两个SQL语句,只要相差哪怕是一个字符(例如大小写不一样;多一个空格等),那么这两个SQL将使用不同的一个CACHE。 一个被频繁更新的表如果被应用了QC,可能会加重数据库的负担,而不是减轻负担。我一般的做法是默认打开QC,而对一些涉及频繁更新的表的SQL语句加上 SQL_NO_CACHE 关键词来对其禁用CACHE。这样可以尽可能避免不必要的内存操作,尽可能保持内存的连续性。那些查询很分散的SQL语句,也不应该使用QC。例如用来查询用户和密码的语句——“select pass from user where name='surfchen'”。这样的语句,在一个系统里,很有可能只在一个用户登陆的时候被使用。每个用户的登陆所用到的查询,都是不一样的SQL文本,QC在这里就几乎不起作用了,因为缓存的数据几乎是不会被用到的,它们只会在内存里占地方。 2,QueryCache的负面影响: 1,Query的hash性能问题和命中率问题; 2,查询缓存及其容易失效;当表内容发生变化或者表结构发生变化,对应的查询缓存内容都会失效; 3,查询缓存中的结果容易产生重复;因为查询缓存中缓存的是查询结果

K均值算法

痴心易碎 提交于 2020-04-15 11:56:33
【推荐阅读】微服务还能火多久?>>> 一、概念   K-means中心思想:事先确定常数K,常数K意味着最终的聚类类别数,首先 随机选定初始点 为质心,并通过 计算 每一个样本与质心之间的 相似度 (这里为欧式距离),将样本点归到最相似的类中,接着,重新 计算每个类的质心 (即为类中心),重复这样的过程,直到质心 不再改变 ,最终就确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规模的数据集上,K-Means算法的收敛速度比较慢。 二、特点: 常用距离 a.欧式距离 b.曼哈顿距离 三、算法流程 K-means是一个反复迭代的过程,算法分为四个步骤: (x,k,y) (1) 选取数据空间中的K个对象作为初始中心,每个对象代表一个聚类中心;      def initcenter(x, k): kc (2) 对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离,按距离最近的准则将它们分到距离它们最近的聚类中心(最相似)所对应的类;      def nearest(kc, x[i]): j     def xclassify(x, y, kc):y[i]=j (3) 更新聚类中心:将每个类别中所有对象所对应的均值作为该类别的聚类中心,计算目标函数的值;     def kcmean(x, y, kc, k): (4)

Python机器学习笔记 集成学习总结

给你一囗甜甜゛ 提交于 2020-04-12 15:01:23
  集成学习(Ensemble learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器显著优越的泛化性能。它不是一种单独的机器学习算法啊,而更像是一种优化策略。因为单个机器学习模型所能解决的问题有限,泛化能力差,但是通过构建组合多个学习器来完成学习任务往往能够获得奇效,这些学习器可以看成一个个基本单元,由他们组合最终形成一个强大的整体,该整体可以解决更复杂的问题,其思想可以形象的概括为 三个臭皮匠赛过诸葛亮 。   集成学习是机器学习的一大分支,他通过建立几个模型组合来解决单一预测问题。他的工作原理是生成多个分类器模型,各个独立的学习和做出预测。这些预测最后结合成单预测,最后由任何一个单分类做出预测。   集成学习的一般结构是,先产生一组个体学习器,再用某种结合策略将他们结合起来。   集成学习是一种技术框架,其按照不同的思路来组合基础模型,从而达到其利断金的目的。目前,有三种常用的集成学习框架:bagging ,Boosting和stacking。国内南京大学的周志华教授对集成学习有很深的研究,其在09年发表的一篇概述性论文《Ensemble Learning》对这三种集成学习框架有了明确的定义,大家可以百度搜索这篇论文。 集成学习优势   1,个体学习器之间存在一定的差异性,这会导致分类边界不同,也就是说可能存在错误

Spark 机器学习实践 :Iris数据集的分类

泄露秘密 提交于 2020-03-25 08:36:18
3 月,跳不动了?>>> 今天试用了一下Spark的机器学习,体验如下: 第一步,导入数据 我们使用Iris数据集,做一个分类,首先要把csv文件导入。这里用到了spark的csv包,不明白为什么这么常见的功能不是内置的,还需要额外加载。 --packages com.databricks:spark-csv_2.11:1.4.0 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv') .options(header='true', inferschema='true') .load('iris.csv') # Displays the content of the DataFrame to stdout df.show() 结果如下: +-----+------------+-----------+------------+-----------+-------+ |rowid|Sepal.Length|Sepal.Width|Petal.Length|Petal.Width|Species| +-----+------------+-----------+------------+---------

在Ignite中使用k-最近邻(k-NN)分类算法

无人久伴 提交于 2020-03-24 20:44:48
3 月,跳不动了?>>> 在本系列 前面的文章 中,简单介绍了一下Ignite的线性回归算法,下面会尝试另一个机器学习算法,即k-最近邻(k-NN)分类。该算法基于对象k个最近邻中最常见的类来对对象进行分类,可用于确定类成员的关系。 一个适合k-NN分类的数据集是鸢尾花数据集,它可以很容易地通过 UCI网站 获得。 鸢尾花数据集由150个样本组成,来自3种不同种类的鸢尾花各有50朵(Iris Setosa, Iris Versicolour和Iris Virginica)。以下四个特征可供每个样本使用: 萼片长度(cm) 萼片宽度(cm) 花瓣长度(cm) 花瓣宽度(cm) 下面会创建一个模型,利用这四个特征区分不同的物种。 首先,要获取原始数据并将其拆分成训练数据(60%)和测试数据(40%)。然后再次使用Scikit-learn来执行这个任务,下面修改一下前一篇文章中使用的代码,如下: from sklearn import datasets import pandas as pd # Load Iris dataset. iris_dataset = datasets.load_iris() x = iris_dataset.data y = iris_dataset.target # Split it into train and test subsets. from

01.k-近邻算法(KNN)

落花浮王杯 提交于 2020-03-24 10:28:53
3 月,跳不动了?>>> 参考: 机器学习实战教程 机器学习实战书籍下载 - - 密码:qi7q k-近邻算法 公式编辑器 drawio画流程图 百度思维导图 纸上得来终觉浅,绝知此事要躬行 文章目录 1.算法理论 2.实践 1.knn分类 2.knn回归 总结 1.算法理论 k-近邻算法 是一种特征搜索的方法(相似性搜索): 1、准备训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , . . . ( x n , y n ) } D=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),...(x_n,y_n)\} D = { ( x 1 ​ , y 1 ​ ) , ( x 2 ​ , y 2 ​ ) , ( x 3 ​ , y 3 ​ ) , . . . ( x n ​ , y n ​ ) } 数据集量化 (将文本数据转成数字) 特征做归一化 (训练集与测试集都做) 2、每个测试样本与训练集中所有样本计算距离,按距离排序查找k个样本 可以使用的距离度量方法有: 欧式距离 (常用) 闵可夫斯基距离 曼哈顿距离 切比雪夫距离 马哈拉洛比斯距离 相似度度量 向量空间余弦相似度 皮尔森相关系数 3、统计这k个样本 分类 投票机制(少数服从多数) 回归 距离加权平均(类似于插值方式, 距离越小权重越大 ) 2.实践

新iPad Pro更像电脑了 但MacBook Air仍将屹立不倒

感情迁移 提交于 2020-03-21 14:20:31
3 月,跳不动了?>>>   腾讯数码讯当苹果于 2015 年初发布 12 英寸 MacBook 的时候,我们起初都认为这将会是一款替代 MacBook Air 的全新系列。   彼时的 MacBook Air 已经有 5 年时间未迎来设计上的改变,粗大的边框和非高清屏让这款机器显得老态龙钟。   而 12 英寸 MacBook 的横空出世让我们耳目一新,窄边框、超薄机身、无风扇设计、Retina 显示屏,这一切看上去都像是 MacBook Air 的高级进化。   但事实证明,12 英寸 MacBook 是一款太过超前的产品。过高的售价、接口的缺乏、羸弱的性能、易坏的蝶式键盘,这些又让它未能真正继承 MacBook Air 的衣钵。   到最后,12 英寸 MacBook 在 2017 年的常规配置升级之后便再没了声音,而 MacBook Air 则继续维持着每年一更的稳定频率,2018 年末发布的第三代机型更是将前者取而代之。   在本周,苹果又带来了第三代 MacBook Air 的第三次更新,而除了配置升级之外,这个 MacBook 产品线中的入门系列似乎又多了一分专业的气质。    键盘的轮回   如今看来,12 英寸 MacBook 更像是一款实验性的产品,苹果在它身上尝试了几个他们希望在未来推进的功能点,比如窄边框、USB-C 接口、以及蝶式键盘。  

机器学习中的特征选择filter

我怕爱的太早我们不能终老 提交于 2020-03-20 12:23:49
来源地址: https://www.cnblogs.com/bjwu/p/9103002.html Filter-移除低均方差的特征 代码: from sklearn.feature_selection import VarianceThreshold X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]] sel = VarianceThreshold(threshold=(0.2) sel.fit_transform(X) 返回值过滤了方差小于0.2的特征, 均 方差信息为: Filter-单变量特征选择 SelectKBest 移除那些除了评分最高的 K 个特征之外的所有特征 代码: from sklearn.datasets import load_iris from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 iris = load_iris() X, y = iris.data, iris.target X.shape X_new = SelectKBest(chi2, k=2).fit_transform(X, y) X_new.shape   

JavaScript机器学习之KNN算法

廉价感情. 提交于 2020-03-18 22:14:46
3 月,跳不动了?>>> 译者按: 机器学习原来很简单啊,不妨动手试试! 原文: Machine Learning with JavaScript : Part 2 译者: Fundebug 为了保证可读性,本文采用意译而非直译。另外,本文版权归原作者所有,翻译仅用于学习。另外,我们修正了原文代码中的错误 上图使用 plot.ly 所画。 上次我们用JavaScript实现了 线性规划 ,这次我们来聊聊KNN算法。 KNN是 k-Nearest-Neighbours 的缩写,它是一种监督学习算法。KNN算法可以用来做分类,也可以用来解决回归问题。 GitHub仓库: machine-learning-with-js KNN算法简介 简单地说, KNN算法由那离自己最近的K个点来投票决定待分类数据归为哪一类 。 如果待分类的数据有这些邻近数据, NY : 7 , NJ : 0 , IN : 4 ,即它有7个 NY 邻居,0个 NJ 邻居,4个 IN 邻居,则这个数据应该归类为 NY 。 假设你在邮局工作,你的任务是为邮递员分配信件,目标是最小化到各个社区的投递旅程。不妨假设一共有7个街区。这就是一个实际的分类问题。你需要将这些信件分类,决定它属于哪个社区,比如 上东城 、 曼哈顿下城 等。 最坏的方案是随意分配信件分配给邮递员,这样每个邮递员会拿到各个社区的信件。