聚类

新版白话空间统计(8):莫兰指数小结

别等时光非礼了梦想. 提交于 2020-04-12 19:10:17
本节对前面写的莫兰指数部分留下的一下小问题进行解答,里面包括一些读者朋友们通过邮件提出的一些问题。 Q1:ArcGIS中,计算莫兰指数的工具里面的那个Row(行标准化)是拿来干嘛的? A:所谓的行标准化,指的是在进行空间权重设定的时候,是否对 权重系数进行 标准化 ,具体说来,看下面这个例子: 还是这张图: 那么我们记录空间关系时候,会记录成这样的结构: 城市 临近城市 空间权重系数 北京 石家庄 1 北京 太原 1 北京 天津 1 北京 济南 1 西安 兰州 1 西安 银川 1 西安 西宁 1 这种情况,所有有临近关系的城市,都记录为1,那么现在就带来问题了: 北京与周边临近城市的空间权重之和等于 4 ,而 西安与周边城市的空间权重之和,等于 3 。 这种情况,带入到莫兰指数的公式里面的时候,可能出现因为空间位置分布不均匀,或者设计采样以及聚合的方式不一致,带来一些计算上的麻烦,最大的 麻烦 就是有时候莫兰指数计算出来的结果, 不在-1 —— 1之间 。(大家可以回忆一下莫兰指数的计算公式,会迭代累加所有临近要素的字段值来) 所以,Esri建议对空间权重进行 标准化 ,也就是用1来除以所有临近要素的数量,权重系数取平均值,那么上面这个空间权重矩阵就会记录成这个样子: 城市 临近城市 空间权重系数 北京 石家庄 0.25 北京 太原 0.25 北京 天津 0.25 北京 济南 0

用Python画的,5 种非传统的可视化技术,超炫酷的动态图

我的未来我决定 提交于 2020-04-12 18:34:41
数据可以帮助我们描述这个世界、阐释自己的想法和展示自己的成果,但如果只有单调乏味的文本和数字,我们却往往能难抓住观众的眼球。而很多时候,一张漂亮的可视化图表就足以胜过千言万语。本文将介绍 5 种基于 Plotly 的可视化方法,你会发现,原来可视化不仅可用直方图和箱形图,还能做得如此动态好看甚至可交互。 对数据科学家来说,讲故事是一个至关重要的技能。为了表达我们的思想并且说服别人,我们需要有效的沟通。而漂漂亮亮的可视化是完成这一任务的绝佳工具。本文将介绍 5 种非传统的可视化技术 ,可让你的数据故事更漂亮和更有效。这里将使用 Python 的 Plotly 图形库(也可通过 R 使用),让你可以毫不费力地生成动画图表和交互式图表。 那么,Plotly 有哪些好处?Plotly 的整合能力很强:可与 Jupyter Notebook 一起使用,可嵌入网站,并且完整集成了 Dash——一种用于构建仪表盘和分析应用的出色工具。 启动 如果你还没安装 Plotly,只需在你的终端运行以下命令即可完成安装: 安装完成后,就开始使用吧! 动画 在研究这个或那个指标的演变时,我们常涉及到时间数据。 Plotly 动画工具仅需一行代码就能让人观看数据随时间的变化情况 ,如下图所示: 代码如下: 只要你有一个时间变量来过滤,那么几乎任何图表都可以做成动画。下面是一个制作散点图动画的例子: 太阳图

无监督学习方法

百般思念 提交于 2020-04-11 12:49:11
学习资料:吴恩达机器学习课程 一. K-means算法 1. 算法思想 K-均值算法是无监督学习中聚类算法中的一个 初始化k个聚类中心 循环: 将每个训练样本归类到最近的聚类中心组成一个个聚类 移动聚类中心到本身聚类的中心(平均值) 2. 目标优化 3. 随机初始化 K-均值 的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。 解决方法:通常需要多次运行(50-1000次) K-均值 算法,每一次都重新进行随机初始化,最后再比较多次运行 K-均值 的结果,选择代价函数最小的结果。 初始化时随机选择训练样本作为聚类中心 这种方法在较小的时候 \(K\) 较小时(2-10)还是可行的,但是 \(K\) 如果较大,就没有必要多次随机初始化了。 4. 选择聚类的数目K 根据“肘部法则” 根据聚类算法分类后的目的来决定数量 二. 主成分分析PCA 1. Dimensionality reduction降维 主成分分析是降维的一种方法,将高纬数据压缩成较低维度数据。比如将两个维度的压缩成一个维度时:就是指将两个特征压缩成一个新的特征。 降纬的作用: 压缩数据,减少数据存储空间; 加快学习算法速度; 可视化数据:降到2D、3D可以可视化数据。 2. PCA步骤 首先进行数据预处理,均值标准化 \[\frac{X^{[i]}-x_{平均值}}{s_{标准差}/x_{max}

无监督学习方法

泄露秘密 提交于 2020-04-11 12:21:00
学习资料:吴恩达机器学习课程 一. K-means算法 1. 算法思想 K-均值算法是无监督学习中聚类算法中的一个 初始化k个聚类中心 循环: 将每个训练样本归类到最近的聚类中心组成一个个聚类 移动聚类中心到本身聚类的中心(平均值) 2. 目标优化 3. 随机初始化 K-均值 的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。 解决方法:通常需要多次运行(50-1000次) K-均值 算法,每一次都重新进行随机初始化,最后再比较多次运行 K-均值 的结果,选择代价函数最小的结果。 初始化时随机选择训练样本作为聚类中心 这种方法在较小的时候 \(K\) 较小时(2-10)还是可行的,但是 \(K\) 如果较大,就没有必要多次随机初始化了。 4. 选择聚类的数目K 根据“肘部法则” 根据聚类算法分类后的目的来决定数量 二. 主成分分析PCA 1. Dimensionality reduction降维 主成分分析是降维的一种方法,将高纬数据压缩成较低维度数据。比如将两个维度的压缩成一个维度时:就是指将两个特征压缩成一个新的特征。 降纬的作用: 压缩数据,减少数据存储空间; 加快学习算法速度; 可视化数据:降到2D、3D可以可视化数据。 2. PCA步骤 首先进行数据预处理,均值标准化 \[\frac{X^{[i]}-x_{平均值}}{s_{标准差}/x_{max}

【学习笔记】人工智能原理(MOOC北大 王文敏,教材是《人工智能一种现代的科学计算方法》)(学习中。。。)

一世执手 提交于 2020-04-10 18:02:22
MOOC大学上的课程,做个学习笔记,方便以后复习回顾 教材是 1 绪论 1.1 AI概述 人工智能研究如何用硬件和软件实现智能的理智的行为,即搜索、推理、规划与学习,并在此之上去实现感知、认知与智能行为 人工智能自1956年诞生,经历2次低潮后,计算能力的提升为其提供良好的平台,多媒体数据的爆发性增长为期提供充足原料,AI先后战胜了人类象棋、围棋以及德州扑克的顶级选手,图像的识别与分类能力已经超越人类,指纹语音与人脸识别正在改变人机交互手段,各种类型的机器人运行在工厂和现实生活之中,人工智能的学术研究越来越深入,人工智能的创业者越来越多,人工智能正在改变我们的生活,世界上主要发达国家都把人工智能当做重大发展战略,力争在新一轮国际竞争中争得主动权,中国国务院于2017年7月8日印发《新一代人工智能发展规划》明确提出了中国人工智能发展战略为三步走,2020年,人工智能的应用技术与世界先进水平同步,2025年人工智能基础理论取得重大突破,2030年发展为世界主要的人工智能创新中心。所以说现在是人工智能的最好时期,有人担心人工智能会造成大批人失业,有人认为人工智能是威胁,有人游说人工智能可能引发第三次世界大战,更有人惧怕人工智能会毁灭人类,所以又说这是人工智能最有争议的时期。 1956年的“Dartmouth Summer Research Project on Artificial

【学习笔记】人工智能原理(MOOC北大 王文敏,教材是《人工智能一种现代的科学计算方法》)(学习中。。。)

孤街浪徒 提交于 2020-04-10 16:30:17
MOOC大学上的课程,做个学习笔记,方便以后复习回顾 教材是 1 绪论 1.1 AI概述 人工智能研究如何用硬件和软件实现智能的理智的行为,即搜索、推理、规划与学习,并在此之上去实现感知、认知与智能行为 人工智能自1956年诞生,经历2次低潮后,计算能力的提升为其提供良好的平台,多媒体数据的爆发性增长为期提供充足原料,AI先后战胜了人类象棋、围棋以及德州扑克的顶级选手,图像的识别与分类能力已经超越人类,指纹语音与人脸识别正在改变人机交互手段,各种类型的机器人运行在工厂和现实生活之中,人工智能的学术研究越来越深入,人工智能的创业者越来越多,人工智能正在改变我们的生活,世界上主要发达国家都把人工智能当做重大发展战略,力争在新一轮国际竞争中争得主动权,中国国务院于2017年7月8日印发《新一代人工智能发展规划》明确提出了中国人工智能发展战略为三步走,2020年,人工智能的应用技术与世界先进水平同步,2025年人工智能基础理论取得重大突破,2030年发展为世界主要的人工智能创新中心。所以说现在是人工智能的最好时期,有人担心人工智能会造成大批人失业,有人认为人工智能是威胁,有人游说人工智能可能引发第三次世界大战,更有人惧怕人工智能会毁灭人类,所以又说这是人工智能最有争议的时期。 1956年的“Dartmouth Summer Research Project on Artificial

学习第一周

老子叫甜甜 提交于 2020-04-10 13:23:37
监督学习(他们中有标签加以区分) 回归算法 我们给出一个数据集,里面包含了正确的答案,假如我们给他一个房价的数据集,在这个数据集中的每个样本,我们都给出正确的答案(房子的实际价格),该算法的目的是为了算出更多的正确答案,这类问题我们也叫做回归问题,我们想 预测连续数值的输出。 分类算法 分类是指,我们设法预测出一个离散值输出,0或1,在实际的问题中,会有两个以上的输出值,在分类的问题中,有另一种方法来绘制这些数据, 预测离散值输出。 无监督学习(没有任何标签) 聚类算法 来源: oschina 链接: https://my.oschina.net/u/4370628/blog/3227734

阿里云安全运营中心:DDoS攻击趁虚而入,通过代理攻击已成常态

做~自己de王妃 提交于 2020-04-10 10:07:54
应用层DDoS攻击与传统的DDoS攻击有着很大不同。传统的DDoS攻击通过向攻击目标发起大流量并发式访问造成服务不可用,系统瘫痪,这种方式比较容易被识破,且市场上已经有成熟的应对方案。而近年来兴起的应用层DDoS攻击流量则会伪装成正常的流量,甚至和正常业务一样,绕过防御设备,造成企业服务器不可用,业务卡顿等,对防御方造成很大困扰。 阿里云安全运营中心对疫情期间的应用层DDoS攻击事件做了深入分析,希望给企业提升防御水位提供参考。 疫情期间攻击量级持续高位 这次疫情爆发在春节期间,2020年1-3月份抗击疫情期间应用层DDoS攻击量持续处于高位。尤其是1月中旬到2月中旬疫情最严重时期,攻击量与春节前期相比,有了明显大幅提升。从图1可以看出,攻击者在抗击疫情期间“趁虚而入”,试图从中获利。 游戏、医疗和在线教育行业成全新重点目标 据阿里云安全运营中心统计分析发现,2020年1月16日到3月15日疫情期间,应用层DDoS攻击环比增长幅度排名前三的分别为医疗、在线教育及在线办公、游戏三大行业,如图2所示。 在这期间,医疗、在线教育及在线办公得到了前所未有的关注,大量资源开始投入到这两大行业中。由于黑客逐利属性的驱使,使得这两大行业也成为重点攻击对象。同时不难看出,疫情期间,大家闭门在家,可选的娱乐活动有限,使得游戏行业异常火爆,也因此使得游戏行业受攻击数量环比增长超过300%。

机器学习中五种常用的聚类算法

我们两清 提交于 2020-04-09 14:21:17
聚类是机器学习中一种重要的无监督算法,它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。在数据科学中聚类会从数据中发掘出很多分析和理解的视角,让我们更深入的把握数据资源的价值、并据此指导生产生活。以下是五种常用的聚类算法。 K均值聚类 这一最著名的聚类算法主要基于数据点之间的均值和与聚类中心的聚类迭代而成。它主要的优点是十分的高效,由于只需要计算数据点与剧类中心的距离,其计算复杂度只有O(n)。其工作原理主要分为以下四步: 1.首先我们需要预先给定聚类的数目同时随机初始化聚类中心。我们可以初略的观察数据并给出较为准确的聚类数目; 2.每一个数据点通过计算与聚类中心的距离了来分类到最邻近的一类中; 3.根据分类结果,利用分类后的数据点重新计算聚类中心; 4.重复步骤二三直到聚类中心不再变化。(可以随机初始化不同的聚类中心以选取最好的结果) 这种方法在理解和实现上都十分简单,但缺点却也十分明显,十分依赖于初始给定的聚类数目;同时随机初始化可能会生成不同的聚类效果,所以它缺乏重复性和连续性。 和K均值类似的K中值算法,在计算过程中利用中值来计算聚类中心,使得局外点对它的影响大大减弱;但每一次循环计算中值矢量带来了计算速度的大大下降。 均值漂移算法 这是一种基于滑动窗口的均值算法,用于寻找数据点中密度最大的区域

阿里和浙大的“AI 训练师助手”是这样炼成的

痞子三分冷 提交于 2020-04-09 02:02:01
简介: 不久前,人力资源社会保障部发布了一种炙手可热的新职业:AI 训练师。没想到,浙江大学与阿里安全的人工智能训练师马上创造出一个 “AI 训练师助手”,高效打造 AI 深度模型,应对海量应用场景的增加,让 AI 训练模型面对新场景时不用从头学习,直接从已经存在的模型上迁移,迅速获得别人的知识、能力,成为全新的AI模型,而且能将模型周期从一个月缩短为一天。 原文链接: 点击这里 ​ 不久前,人力资源社会保障部发布了一种炙手可热的新职业:AI 训练师。没想到,浙江大学与阿里安全的人工智能训练师马上创造出一个 “AI 训练师助手”,高效打造 AI 深度模型,应对海量应用场景的增加,让 AI 训练模型面对新场景时不用从头学习,直接从已经存在的模型上迁移,迅速获得别人的知识、能力,成为全新的AI模型,而且能将模型周期从一个月缩短为一天。随后,阐述这种让 AI 训练 AI,提升模型生产效率的论文被计算机视觉顶会 CVPR 2020 接收 (Oral)。 现在,视频、直播成为互联网内容消费的重要载体,内容创作爆发,创作形式自由度高带来了许多潜在安全威胁。好消息是,AI 深度模型被大规模用于多媒体内容的识别、检测、理解上,用以狙击含有不良内容的传播。为了提升检测的准确性,面向不同场景必须使用不同的 AI 模型。但是,由于媒体场景、细分领域多,如何才能高效生产不同 AI 深度模型?