聚类

Python数据分析与挖掘实战总结

南楼画角 提交于 2020-05-09 14:49:03
第三章 数据探索 3.1 数据质量分析 3.1.1 缺失值分析 缺失值的处理分为三种情况: 删除存在缺失值的记录; 对可能的数据进行插值:拉格朗日插值,牛顿插值法: 3.1.2 异常值分析 首先可以先使用describe()函数查看数据的基本情况: import pandas as pd # 餐饮数据 catering_sale = './data/catering_sale.xls' # 读取数据,指定日期列为索引列 data = pd.read_excel(catering_sale,index_col=u'日期') data.describe() 检测异常值的方法可以使用箱型图: import pandas as pd catering_sale = './data/catering_sale.xls' data = pd.read_excel(catering_sale,index_col=u'日期') import matplotlib.pyplot as plt # 用来正常显示中文标签 # plt.rcParams['dont.sans-serif'] = ['SimHei'] plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签 # # 用来正常显示负号 plt.rcParams['axes

K-means聚类算法及python代码实现

随声附和 提交于 2020-05-09 13:39:27
K-means 聚类算法( 事先数据并没有类别之分!所有的数据都是一样的 ) 1、概述 K-means 算法是 集简单和经典于一身的 基于距离的聚类算法 采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。 该算法认为类簇是由距离靠近的对象组成的,因此把得到 紧凑且独立的簇作为最终目标。 2、核心思想 通过 迭代 寻找 k 个 类簇 的一种划分方案,使得用这 k 个 类簇 的均值来代表相应各类样本时所得的总体误差最小。 k 个聚类具有以下特点: 各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开 。 k-means 算法的基础是 最小误差平方和准则 , 其代价函数是: 式中, μc(i) 表示第 i 个聚类的均值。 各 类簇 内的样本越相似,其与该类均值间的误差平方越小,对所有类所得到的误差平方求和,即可验证分为 k 类时,各聚类是否是最优的。 上式的代价函数无法用解析的方法最小化,只能有迭代的方法。 3、算法步骤图解 下图展示了对 n 个样本点进行 K-means 聚类的效果,这里 k 取 2 。 4、算法实现步骤 k-means 算法是将样本聚类成 k 个簇( cluster ),其中 k 是用户给定的 ,其求解过程非常直观简单,具体算法描述如下: 1) 随机选取 k 个聚类质心点 2) 重复下面过程直到收敛 { 对于每一个样例 i ,计算其应该属于的类:

数据集成、变换、归约及相关MATLAB工具箱函数

故事扮演 提交于 2020-05-08 19:57:52
   数据预处理 的主要内容包括 数据清洗、数据集成、数据变换和数据规约 ,在数据挖掘的过程中,数据预处理工作量占到了整个过程的 60% 。数据清洗在上一篇博客中写过,这里主要写后面三部分。 数据集成   数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。   在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,有可能不匹配,要考虑实体识别问题和属性冗余问题,从而将源数据在最低层上加以转换、提炼和集成。   1、实体识别   同名异义、异名同义、单位不统一   2、冗余项识别   数据集成往往导致数据冗余,如:   ①同一属性多次出现。   ②同一属性命名不一致导致重复。   有些冗余属性可以用相关分析检测。给定两个数值型的属性A和B,根据其属性值,用 相关系数 度量一个属性在多大程度上蕴含另一个属性。 数据变换   数据变换主要是对数据进行规范化处理,将数据转换成适当的形式,以适用于挖掘任务及算法的需要。 简单的函数变换   常见的函数变换有平方、开方、取对数、差分等。 $$\begin{array}{*{20}{l}} {{x^\prime } = {x^2}}\\ {{x^\prime } = \sqrt x }\\ {{x^\prime } = \log (x)}\\ {\nabla f

OpenCV4 Python 最新中文版官方教程来了(附下载)

丶灬走出姿态 提交于 2020-05-08 06:24:34
教程简介 OpenCV 是计算机视觉中经典的专用库,然而其中文版官方教程久久不来。近日,一款最新 OpenCV4.1 版本的完整中文版官方教程出炉,读者朋友可以更好的学习了解 OpenCV 相关细节。教程来自 objectdetection.cn 。 教程目录 OpenCV 简介 0_OpenCV-Python Tutorials OpenCV 安装 1_1_OpenCV-Python 教程简介 1_2_在 Windows 中安装 OpenCV-Python 1_3_在 Fedora 中安装 OpenCV-Python 1_4_在 Ubuntu 中安装 OpenCV-Python OpenCV 中的 GUI 特性 2_1_图像入门 2_2_视频入门 2_3_OpenCV 中的绘图功能 2_4_鼠标作为画笔 2_5_轨迹栏作为调色板 核心操作 3_1_图像的基本操作 3_2_图像上的算法运算 3_3_性能衡量和提升技术 OpenCV 中的图像处理 4_1_改变颜色空间 4_2_图像几何变换 4_3_图像阈值 4_4_图像平滑 4_5_形态转换 4_6_图像梯度 4_7_Canny 边缘检测 4_8_图像金字塔 4_9_1_OpenCV 中的轮廓 4_9_2_轮廓特征 4_9_3_轮廓属性 4_9_4_轮廓:更多属性 4_9_5_轮廓分层 4_10_1_直方图-1:查找,绘制,分析 4

小刘的深度学习---Faster RCNN

北慕城南 提交于 2020-05-08 02:54:34
前言: 对于目标检测Faster RCNN有着广泛的应用,其性能更是远超传统的方法。 正文: R-CNN(第一个成功在目标检测上应用的深度学习的算法) 从名字上可以看出R-CNN是 Faster RCNN 的基础。正是通过不断的改进才有了后面的Fast RCNN 和 Faster RCNN。 R-CNN的流程可以分为4个步骤: 用SS(Sekective Search) 找候选区域 >>> CNN提取特征 >>> 用提取的特征训练SVM中做物体识别 >>> 用提取的特征训练回归器提议区域 Sekective Search(选择性搜索)是一种基于区域的目标检测方法。先将图像划分成很多尺寸不同的区域(满足目标多尺寸要求),再将这些区域的层次聚类。其中的相似度计算包含4个方面:颜色,纹理,尺寸和空间交叠 颜色相似度是转HSV,每个通道以bins=25计算直方图,再除以区域尺寸做归一化 纹理相似度采用方差为1的高斯分布在8个方向上做梯度统计,以bins=10计算直方图 尺寸相似度 空间交叠相似度 最终的相似度 点击查看 CNN 部分 点击查看 SVM 部分 以上是R-CNN的基本流程,但是由于一张图可能会生成大约2千个候选区域,导致它运行的非常的慢。 Fast R-CNN(R-CNN的续作) 考虑到R-CNN中候选区域会有许多重叠部分,这里会先抽取特征再用SS选区域

R语言代写基于模型的聚类和高斯混合模型

守給你的承諾、 提交于 2020-05-07 19:04:25
原文链接: http://tecdat.cn/?p=6105 介绍 聚类模型是一个概念,用于表示我们试图识别的聚类类型。四种最常见的聚类方法模型是层次聚类,k均值聚类,基于模型的聚类和基于密度的聚类 可以基于两个主要目标评估良好的聚类算法: 高级内相似性 低级间相似性 基于模型的聚类 是迭代方法,通过优化聚类中数据集的分布,将一组数据集拟合到聚类中。高斯分布只不过是正态分布。此方法分三步进行: 首先随机选择高斯参数并将其拟合到数据点集。 迭代地优化分布参数以适应尽可能多的点。 一旦收敛到局部最小值,您就可以将数据点分配到更接近该群集的分布。 有关高斯混合模型的详细信息 基于概率模型的聚类技术已被广泛使用,并且已经在许多应用中显示出有希望的结果,从图像分割,手写识别,文档聚类,主题建模到信息检索。基于模型的聚类方法尝试使用概率方法优化观察数据与某些数学模型之间的拟合。 生成模型通常使用 EM 方法求解, EM 方法是用于估计有限混合概率密度的参数的最广泛使用的方法。基于模型的聚类框架提供了处理此方法中的几个问题的主要方法,例如组件密度(或聚类)的数量,参数的初始值(EM算法需要初始参数值才能开始),以及分量密度的分布(例如,高斯分布)。 EM 以随机或启发式初始化开始,然后迭代地使用两个步骤来解决计算中的循环: E-Step 。使用当前模型参数确定将数据点分配给群集的预期概率。 M

【实战案例】用Python做出5 种非传统的可视化技术,超炫酷的动态图

依然范特西╮ 提交于 2020-05-07 16:24:13
数据可以帮助我们描述这个世界、阐释自己的想法和展示自己的成果,但如果只有单调乏味的文本和数字,我们却往往能难抓住观众的眼球。而很多时候,一张漂亮的可视化图表就足以胜过千言万语。本文将介绍 5 种基于 Plotly 的可视化方法,你会发现,原来可视化不仅可用直方图和箱形图,还能做得如此动态好看甚至可交互。 对数据科学家来说,讲故事是一个至关重要的技能。为了表达我们的思想并且说服别人,我们需要有效的沟通。而漂漂亮亮的可视化是完成这一任务的绝佳工具。本文将介绍 5 种非传统的可视化技术 ,可让你的数据故事更漂亮和更有效。这里将使用 Python 的 Plotly 图形库(也可通过 R 使用),让你可以毫不费力地生成动画图表和交互式图表。 那么,Plotly 有哪些好处?Plotly 的整合能力很强:可与 Jupyter Notebook 一起使用,可嵌入网站,并且完整集成了 Dash——一种用于构建仪表盘和分析应用的出色工具。 启动 如果你还没安装 Plotly,只需在你的终端运行以下命令即可完成安装: 安装完成后,就开始使用吧! 动画 在研究这个或那个指标的演变时,我们常涉及到时间数据。 Plotly 动画工具仅需一行代码就能让人观看数据随时间的变化情况 ,如下图所示: 代码如下: 只要你有一个时间变量来过滤,那么几乎任何图表都可以做成动画。下面是一个制作散点图动画的例子: 太阳图

Python数据分析及可视化实例之基于Kmean分析RFM进行用户关怀

大城市里の小女人 提交于 2020-05-07 14:33:46
系列文章总目录: Python数据分析及可视化实例目录 数据集下载 易一网络科技 - 付费文章 ​ www.intumu.com 加载数据 import pandas as pd import numpy as np pd . set_option ( 'display.max_columns' , None ) # 设置显示所有列 df = pd . read_excel ( 'UXFTLB.xls' , index_col = 'Id' ) #读取数据 df . head () R F M Id 1 27 6 232.61 2 3 5 1507.11 3 4 16 817.62 4 3 11 232.81 5 14 7 1913.05 聚类分析 X = 1.0 * ( df - df . mean ()) / df . std () #数据标准化 X . head () R F M Id 1 0.764186 -0.493579 -1.158711 2 -1.024757 -0.630079 0.622527 3 -0.950217 0.871423 -0.341103 4 -1.024757 0.188922 -1.158432 5 -0.204824 -0.357079 1.189868 from yellowbrick.cluster import

Object Detection R-CNN

怎甘沉沦 提交于 2020-05-07 13:06:17
3788字13图,预计阅读需要23分钟 红色华诞68周年 National Day of the People's Republic of China 作 者:张 旭 编 辑:李文臣 R-CNN提出于2014年,应当算是卷积神经网络在目标检测任务中的开山之作了,当然同年间还有一个overfeat算法,在这里暂不讨论。 在之后的几年中,目标检测任务的CNN模型也越来越多,实时性与准确率也越来越好,但是最为经典 的模型还是很值得学习的。 那么下面就正式开始吧 对于R-CNN模型,个人是这样理解,它其实是将4个应用于不同任务的已有的算法很好的结合了起来,最终在目标检测任务中取得了不错的效果,这种结合更像是偏向于工程的方法,而不是在算法上的一种突破,当然在后续的Fast-RCNN与Faster-RCNN中模型逐步完善并整合成为一个模型,但是在R-CNN中是没有的。 所以R-CNN由4个部分构成,它们分别是: 1 .区域建议算法(ss) 2 .特征提取算法(AlexNet) 3 .线性分类器(线性SVM) 4 .边界框修正回归模型(Bounding box) 区域建议算法 首先是区域建议(Region Proposal)算法,这个东西在CNN之前就已经有了,而且算法不止一种,ss(selective search)算法是比较著名的一个,此外还有EdgeBox,MSER,MCG等等算法

大学生创新创业项目-智取乐食

左心房为你撑大大i 提交于 2020-05-07 11:49:05
大学生创新创业项目-天津市级 The project was set up in TianJin Normal University. 2019-04 项目名称:智取乐食 项目介绍: "智取乐食"利用RFID射频识别技术、称重传感器、大数据分析和数据挖掘技术,设计一款集Web端、微信小程序后台算法于一体的项目。实现餐饮食品自动扣费、每日膳食推荐、个人饮食喜好设置、特色菜品推荐、食物销量预测等功能。项目有效缓解高校食堂食品浪费现象严重,提高学生饮食质量,发挥人性化餐饮服务和科学合理节约的特色。 项目特点: 在软件上,使用微信小程序使用户使用更加便捷,利用大数据技术减少食物浪费并进行人性化推荐; 在硬件上,使用REID射频识别技术和称重传感器技术实现自动扣费方式; 在方式上,自动扣费方式减少学生结账时间进而提高食堂效率,减少人力成本; 使用技术: RFID射频识别&称重传感器 前端 数据库 微信小程序 数据分析与挖掘 机器学习 深度学习 我的工作:数据分析与挖掘 1. 定义挖掘目标 针对餐饮行业的数据挖掘应用,可定义如下挖掘目标。 每日膳食推荐智能推荐。 基于餐饮大数据,对餐饮客户价值分析。 基于菜品历史销售情况,综合外部因素(节假日、气候、竞争对手等),对菜品销量进行趋势预测。 2. 数据取样 抽取数据的的标准,一是 相关性 、二是 可靠性 、三是 有效性 。 本项目中取样: