聚类

第四次作业 K均值算法--应用

谁说胖子不能爱 提交于 2020-04-20 16:52:46
1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 源代码: 原图片: 原图片的文件大小以及内存大小以及数据结构: 第一次压缩后的图片: 第一次压缩后的文件大小以及内存大小: 第二次压缩后的图片: 第二次压缩后的文件大小以及内存大小: 2. 观察学习与生活中可以用K均值解决的问题。 从数据-模型训练-测试-预测完整地完成一个应用案例。 这个案例会作为课程成果之一,单独进行评分。 第一种:根据给定的天气状况判定是否去打网球 源代码: 将天气转换成数值的结果: 通过实例所给的天气,预测得出的结果,yes代表打网球,no代表不打网球: 第二种:#据数据源TESTDATA.TXT,使用K-means算法实现聚类 源代码: 运行结果: 将聚类结果用散点图显示: 来源: oschina 链接: https://my.oschina.net/u/4264470/blog/3281602

《Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering》论文阅读笔记

守給你的承諾、 提交于 2020-04-20 14:15:50
通过激活聚类的方法检测深度神经网络的后门攻击 王妮婷 王静雯 郑爽 2020-04-08 论文的基本信息:   《Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering》    Bryant Chen , Wilka Carvalho , Nathalie Baracaldo , Heiko Ludwig , Benjamin Edwards , Taesung Lee , Ian Molloy , Biplav Srivastava Published in SafeAI@AAAI 2018. Mathematics, Computer Science. ArXiv Backdoor Attacks的特点   将训练集中的某些样本加上后门触发器(backdoor trigger),用该poisoned data训练模型,如果模型将具有backdoors trigger的输入由其源类(source class)误分类为目标类(target class:即攻击者设置的类别),则说明该backdoor attacks是成功的。这里只谈及了将具有trigger的输入误分类,而对于没有backdoor trigger的输入而言,该模型会按照其原本的label进行分类,换句话说

K-Means算法的Python实现

一世执手 提交于 2020-04-20 14:12:13
算法简介 K-Means是一种常用的聚类算法。聚类在机器学习分类中属于无监督学习,在数据集没有标注的情况下,便于对数据进行分群。而K-Means中的K即指将数据集分成K个子集合。 K-Means演示 从以下的动画、视频和计算过程可以较为直观了解算法的计算过程。 动画展示 视频展示 https://youtu.be/BVFG7fd1H30 在线展示 kmeans测试页面 使用场景 由于简单和低维度下高效的特性,K-Means算法被应用在人群分类,图像分段,文本分类以及数据挖掘前数据预处理场景中。 算法理解 计算流程 一下使用 $$ 分隔的内容为 LaTeX 编码的数学表达式,请自行解析。 假设有n个点$$x_{1}$$, $$x_{2}$$, $$x_{3}$$, ..., $$x_{n}$$ 以及子集数量K。 步骤1 取出K个随机向量作为中心点用于初始化 $$C = c_{1},c_{2},...,c_{k}$$ 步骤2 计算每个点$$x_{n}$$与K个中心点的距离,然后将每个点聚集到与之最近的中心点 $$\min_{c_{i} \in C} dist(c_{i},x)$$ dist函数用于实现欧式距离计算。 步骤3 新的聚集出来之后,计算每个聚集的新中心点 $$c_{i} = avg(\sum_{x_{i} \in S_{i}} x_{i})​$$

K均值算法--应用

霸气de小男生 提交于 2020-04-20 05:31:39
1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 from sklearn.datasets import load_sample_image from sklearn.cluster import KMeans import matplotlib.pyplot as plt import numpy as np import matplotlib.image as img import sys # 从库中读取一张照片 china = load_sample_image('china.jpg') # 显示原图片 plt.imshow(china) plt.show() # 压缩图片 image = china[::3, ::3] x = image.reshape(-1, 3) plt.imshow(image) plt.show() #使用机器学习K-Means算法压缩 # 定义聚类中心 n_colors = 64 model = KMeans(n_colors) #预测 label = model.fit_predict(x) colors = model

几行代码搞定ML模型,低代码机器学习Python库正式开源

痴心易碎 提交于 2020-04-18 12:22:19
PyCaret 库支持在「低代码」环境中训练和部署有监督以及无监督的机器学习模型,提升机器学习实验的效率。 想提高机器学习实验的效率,把更多精力放在解决业务问题而不是写代码上?低代码平台或许是个不错的选择。 最近,机器之心发现了一个开源低代码机器学习 Python 库 PyCaret,它支持在「低代码」环境中训练和部署有监督以及无监督的机器学习模型。 GitHub 地址: https:// github.com/pycaret/pyca ret 用户文档: https://www. pycaret.org/guide Notebook 教程: https://www. pycaret.org/tutorial PyCaret 库支持数据科学家快速高效地执行端到端实验,与其他开源机器学习库相比,PyCaret 库只需几行代码即可执行复杂的机器学习任务。 该库适合有经验的数据科学家、倾向于低代码机器学习解决方案的公民数据科学家,以及编程背景较弱甚至没有的新手。 PyCaret 库支持多种 Notebook 环境,包括 Jupyter Notebook、Azure notebook 和 Google Colab。从本质上来看,PyCaret 是一个 Python 封装器,封装了多个机器学习库和框架,如 sci-kit-learn、XGBoost、Microsoft LightGBM

借助Python来实现的定量城市研究

吃可爱长大的小学妹 提交于 2020-04-17 17:22:47
一、数据处理基础 (一)数据分析的概念 城市数据分析,可以从数据分析的广义和狭义两个角度来看: 狭义的数据分析 是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对相关城市数据(包括统计数据和爬取的网络开放数据)进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果过程。可以用来进行城市的空间特征的计量分析、网络分析等。 更进一步,深层次的数据分析可以参照数据挖掘来认识, 即是从大量的、不完全的、有噪声的、模糊的、随机的城市数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。可以用来实现智慧城市的更深层次应用,包括识别、预测等。 (二)数据分析的流程 需求分析:城市数据分析中的需求分析也是分析环节的第一步和最重要的步骤之一,决定了后续分析的方向、方法。 数据获取:数据是城市数据分析工作的基础,是指根据需求分析的结果提取,收集数据。 数据预处理:数据预处理是指对城市相关数据进行合并,数据清洗,数据变换和数据标准化,数据变换后使得整体数据变为干净整齐,可以直接用于分析建模这一过程的总称。 分析与建模:分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法和聚类、分类、关联规则、智能推荐等模型与算法发现数据中的有价值信息,并得出结论的过程。 模型评价与优化:模型评价是指对已经建立的一个或多个模型,根据其模型的类别

K均值算法

痴心易碎 提交于 2020-04-15 11:56:33
【推荐阅读】微服务还能火多久?>>> 一、概念   K-means中心思想:事先确定常数K,常数K意味着最终的聚类类别数,首先 随机选定初始点 为质心,并通过 计算 每一个样本与质心之间的 相似度 (这里为欧式距离),将样本点归到最相似的类中,接着,重新 计算每个类的质心 (即为类中心),重复这样的过程,直到质心 不再改变 ,最终就确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规模的数据集上,K-Means算法的收敛速度比较慢。 二、特点: 常用距离 a.欧式距离 b.曼哈顿距离 三、算法流程 K-means是一个反复迭代的过程,算法分为四个步骤: (x,k,y) (1) 选取数据空间中的K个对象作为初始中心,每个对象代表一个聚类中心;      def initcenter(x, k): kc (2) 对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离,按距离最近的准则将它们分到距离它们最近的聚类中心(最相似)所对应的类;      def nearest(kc, x[i]): j     def xclassify(x, y, kc):y[i]=j (3) 更新聚类中心:将每个类别中所有对象所对应的均值作为该类别的聚类中心,计算目标函数的值;     def kcmean(x, y, kc, k): (4)

数据集网站收集(可用于机器学习,数据挖掘等,持续更新)

孤者浪人 提交于 2020-04-14 07:23:32
【今日推荐】:为什么一到面试就懵逼!>>> 数据集网站收集(持续更新) 1.Kaggle: https://www.kaggle.com/ 可以按关键字搜索数据集 自带讨论区 有热心群众分享自己的Kernel,可供参考(热心群众们自己对数据的分析代码) 2.天池: https://tianchi.aliyun.com/competition/gameList/algorithmList 包括阿里系公司(淘宝,饿了么)的部分业务数据(不是很全,只作为赛题数据) 需要登录才可以下载 2.UCI Machine Learning Repository http://archive.ics.uci.edu/ml/datasets.php 可以按关键字搜索数据集 可以按任务类型(用于分类,回归,聚类),数据类型(文本,时序),领域(工程,CS,商业),特征数量等进行筛选 3.美国政府开放数据Data.gov https://www.data.gov/ 可以按关键字搜索数据集 分为农业,气候,教育等多个主题 4.中国国家统计局 http://data.stats.gov.cn/easyquery.htm?cn=A01 需要登录 网站自带一定的可视化功能 数据可导出为csv,pdf等格式 包括国家的工业,农业,运输业,经济等方方面面的数据 可以自行选择数据的时间跨度,例如按年导出(2015

CVPR 提前看:视觉常识的最新研究进展

冷暖自知 提交于 2020-04-13 13:34:15
【今日推荐】:为什么一到面试就懵逼!>>> 2020 年 CVPR 将于 6 月 13 日至 19 日在西雅图举行。今年的 CVPR 有 6656 篇有效投稿,最终录用的文章为 1470 篇,接收率为 22%。作为计算机视觉三大顶会之一,CVPR 今年的论文方向依然为目标检测、目标跟踪、图像分割、人脸识别、姿态估计等等。CVPR 是老牌的视觉、图像和模式识别等研究方向的顶会,本篇提前看中,让我们在人工智能、深度学习热潮的冲击下,一起关注一下视觉常识的最新研究进展。 机器之心分析师网络,作者:仵冀颖,编辑:Joni Zhong。 具体的,我们关注下面四篇文章: 1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients2、ClusterFit: Improving Generalization of Visual Representations3、Learning Representations by Predicting Bags of Visual Words4、AdderNet: Do We Really Need Multiplications in Deep Learning? 1、What it Thinks is Important is