聚类

机器学习实用指南:如何从数据可视化中发现数据规律?

£可爱£侵袭症+ 提交于 2020-12-17 10:55:34
机器学习实用指南:如何从数据可视化中发现数据规律? 点击上方“ AI有道 ”,选择“置顶”公众号 重磅干货,第一时间送达 本系列为《Scikit-Learn 和 TensorFlow 机器学习指南》的第四讲。上文请见下面这篇文章: 机器学习实战指南:如何入手第一个机器学习项目? 目前为止,我们已经对数据有了初步的认识,大体上明白了我们要处理的数据类型。现在,我们将进入更深入的研究。 首先,确保已经划分了测试集并放置一边,我们只会对训练集进行操作。另外,如果训练集很大,可以从中采样一些作为探索集(exploration set),方便进行快速处理。在我们这个例子中,数据集比较小,所以直接在训练集上处理即可。我们还要创建一个训练集的复制副本,这样就不会改动原来的训练集了。 housing = strat_train_set.copy() 1. 地理数据可视化 因为数据集中包含了地理位置信息(经纬度),所以创建所有地区的散点图来可视化数据是个好主意(如下图所示)。 这看起来有点像加州,但是很难看出任何规律。我们设置参数 alpha = 0.1,这样就更容易看出数据点的密度了(如下图所示)。 housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1) 现在,我们可以很清晰地看出这些密度较大的区域了。 通常来说

mysql数据处理函数

安稳与你 提交于 2020-12-16 20:10:17
函数 SQL支持利用函数来处理数据。函数一般是在数据上执行的,它给数据的转换和处理提供了方便。 文本处理函数 函数 说明 Left() 返回串左边的字符 Length() 返回串的长度 Locate() 找出串的一个子串 Lower() 将串转换为小写 LTrim() 去掉串左边的空格 Right() 返回串右边的字符 RTrim() 去掉串右边的空格 Soundex() 返回串的SOUNDEX值 SubString() 返回子串的字符 Upper() 将串转换为大写 SELECT vend_name, Upper(vend_name) AS vend_name_upcase FROM vendors ORDER BY vend_name; 日期和时间处理函数 函数 说明 AddDate() 增加一个日期(天、周等) AddTime() 增加一个时间(时、分等) CurDate() 返回当前日期 CurTime() 返回当前时间 Date() 返回日期时间的日期部分 DateDiff() 计算两个日期的差 Date_Add() 高度灵活的日期运算函数 Date_Format() 返回一个格式化的日期或时间串 Day() 返回一个日期的天数部分 DayOfWeek() 对于一个日期,返回对应的星期几 Hour() 返回一个时间的小时部分 Minute() 返回一个时间的分钟部分

RBF(径向基)神经网络

廉价感情. 提交于 2020-12-16 10:39:45
  只要模型是一层一层的,并使用AD/BP算法,就能称作 BP神经网络。RBF 神经网络是其中一个特例。本文主要包括以下内容: 什么是径向基函数 RBF神经网络 RBF神经网络的学习问题 RBF神经网络与BP神经网络的区别 RBF神经网络与SVM的区别 为什么高斯核函数就是映射到高维区间 前馈网络、递归网络和反馈网络 完全内插法 一、什么是径向基函数   1985年,Powell提出了多变量插值的径向基函数(RBF)方法。径向基函数是一个取值仅仅依赖于离原点距离的实值函数,也就是Φ(x)=Φ(‖x‖),或者还可以是到任意一点c的距离,c点称为中心点,也就是Φ(x,c)=Φ(‖x-c‖)。任意一个满足Φ(x)=Φ(‖x‖)特性的函数Φ都叫做径向基函数,标准的一般使用欧氏距离(也叫做欧式径向基函数),尽管其他距离函数也是可以的。最常用的径向基函数是高斯核函数 ,形式为 k(||x-xc||)=exp{- ||x-xc||^2/(2*σ)^2) } 其中x_c为核函数中心,σ为函数的宽度参数 , 控制了函数的径向作用范围。 二、RBF神经网络   RBF神将网络是一种三层神经网络,其包括输入层、隐层、输出层。从输入空间到隐层空间的变换是非线性的,而从隐层空间到输出层空间变换是线性的。流图如下:   RBF网络的基本思想是:用RBF作为隐单元的“基”构成隐含层空间

Generative Adversarial Nets[AAE]

我只是一个虾纸丫 提交于 2020-12-16 10:24:50
本文来自《Adversarial Autoencoders》,时间线为2015年11月。是大神Goodfellow的作品。本文还有些部分未能理解完全,不过代码在 AAE_LabelInfo ,这里实现了文中2.3小节,当然实现上有点差别,其中one-hot并不是11个类别,只是10个类别。 本文提出“对抗自动编码器(AAE)”,其本质上是自动编码器和GAN架构的合体,通过将AE隐藏层编码向量的聚合后验与任意先验分布进行匹配完成变分推论(variational inference)。将聚合后验与先验进行匹配确保从该先验任何部分都能够生成有意义的样本。AAE的解码层可以看成是一个深度生成模型,可以将强加的先验映射到数据分布上。本文并介绍如何将AAE用在如半监督分类,图像分类,无监督聚类,维度约间和数据可视化。 本文主要是介绍了几种AAE的应用: Basic AAE (文中2到2.1之间的部分) Incorporatiing Label Information in the Adversarial Regularization (文中2.3小节) Supervised AAE (文中4小节) Semi-supervised AAE (文中5小节) Unsupervised Clustering with AAE (文中6小节) Dimensionality Reduction with

R语言统计分析微生物组数据

跟風遠走 提交于 2020-12-14 22:23:09
我在学习这本书记了一些笔记,如果你有学习,欢迎分享你的笔记或者教程。我的已有笔记汇总如下: 宏基因组学习笔记 宏基因组学习笔记2 宏基因组笔记(第二章) R语言宏基因组学统计分析学习笔记(第三章-1) R语言宏基因组学统计分析学习笔记(第三章-2) https://link.springer.com/book/10.1007/978-981-13-1534-3 下载方法,sci-hub大法啦。 出版日期:2018年10月7日 以下内容转载自宏基因组微信公众 号,由于没有 原创 声明,直接复制转载 。 本书简介 这本独特的书解决了使用R语言的微生物组数据的统计建模和分析中的困难。它包括作者研究和公共领域的真实数据,并对R的实现进行了逐步的讨论。数据和R计算机程序是公开的,允许读者复制每一章介绍的模型开发和数据分析,以便这些新方法可以很容易地应用到自己的研究中。 本书还讨论了微生物组研究中统计建模和数据分析的最新进展,以及新一代测序技术的最新进展,以及方法学发展和应用中的大数据。这本及时的书将大大有利于所有读者参与微生物群,生态学和微阵列数据分析,以及其他领域的研究。 作者简介 Yinglin Xia 1 , Jun Sun 2 , Ding-Geng Chen 3 伊利诺伊大学芝加哥分校,医学部(Department of Medicine, University of

stata中的自相关修正(HAC稳健标准差、聚类稳健标准差)操作及其分析

孤人 提交于 2020-12-12 07:33:23
之前讲了 回归分析诊断中的自相关 检验,接下来针对前边的模型进行修正 ,stata中主要有4种方法,包括HAC稳健标准差、聚类稳健标准差、广义最小二乘法、修改模型等,这里先介绍前两种方法的基本原理与stata操作 , 并对结果如何进行分析与判断。 1 仍然选取 美国汽油需求数据gasoline.dta作为示例,其样本有52个,数据展示如下: 这里建立如下回归模型: 用 stata 进行估计,代码为: regress lgasq lincome lgasp lpnc lpuc 结果为: 2 HAC稳健标准差法全称为Heteroskedasticity and Autocorrelation Consistent Standard Error,即“OLS+异方差自相关稳健标准差”,也称为“Newey-West估计法”,因为它是由Newey-West提出的,它是通过引入自相关的参数(也称为“截断参数”),来改变标准差的估计值,从而修正值相关问题,但它不会改变OLS回归系数的估计值。 值得注意的是,在stata异方差修正里也有稳健标准差的方法,即 Heteroskedasticity Robust Standard Error方法,这个方法要与HAC稳健标准差法区分开来,因为它只能修正异方差,Newey-West估计法可以同时修正异方差与自相关。 以 gasoline.dta 为例

AliExpress智能营销引擎大揭秘

眉间皱痕 提交于 2020-12-11 22:46:21
业务介绍 AliExpress(简称AE)是从集团内wholesale孵化出来面向全球消费者的B2C电商平台,目前也是全球化电商业务的排头兵。当前AE为全球220+个国家提供在线购物服务,支持3端(PC、Msite和APP)、18+种语言,有5个独立分站(印尼、俄罗斯、巴西、西班牙、法国)和2个本地站(西班牙Plaza和俄罗斯Tmall)为当地提供更精细化的服务。 业务挑战 营销是电商业务的核心场景,本质是解决人货场的匹配问题。而大数据时代,传统的小二人工运营的方式越来越力不从心,AE数据智能中台赋能小二们在海量用户和商品里进行人货匹配,释放小二们的压力,从而更快、更精准的营销。 去年AE数据智能中台在双十一中小试牛刀,效果得到了业务团队的普遍认可。然而今年由于疫情等各种复杂的国际形势,对AE智能化产生了更多的赋能场景,而这些场景对支撑业务的数据系统也提出了更高的要求和挑战。 时效性---速度要快 AE的场景基本都是实时营销,如果给用户的营销是基于非实时的数据计算出来的结果,会大幅降低运营的决策效率。以会场调控举例,需要在双十一大促期间从修改选品池条件到生效到会场整体时间稳定在10分钟以内,运营根据实时看板的秒级粒度的大促数据表现,以修改选品规则进行实时调控,解决商品疲劳、会场投放效果差、调整会场货品结构布局等问题。 智能型---效果要准 相对于传统的小二凭借自身知识营销

奇点云数据中台技术汇(五)| CDP,线下零售顾客运营中台

霸气de小男生 提交于 2020-12-08 08:31:52
顾客数据平台(Customer Data Platform,简称CDP),是近年兴起的一种以顾客为核心、聚焦客群细分与人群洞察的企业数据应用平台。 听上去很互联网啊?跟实体行业和零售营销有什么关系呢? 让我们从几个故事讲起。 「赢了所有对手,却输给了时代。」 2010年,大润发在黄明端接掌14年之后,终于如愿取代家乐福,强势登顶中国百货零售冠军,然而,这位彼时被业界誉为“陆战之王”的台湾企业家很难料到,迅速崛起的阿里巴巴在之后仅用了不到一半时间,便完成了对大润发母公司高鑫零售的股权收购。 黄明端的无奈背后,原大润发领军层黯然离场。 在门槛更高的耐消品行业,老将与新星间的博弈也在激烈的进行中。2019年前五个月,小米电视的线上份额已大幅扩张至27.79%,直逼国产三龙头份额之和。而对于以往将小米攻势定位于「性价比」的守成者们来说,更让他们感到忧虑的,则是在电视价格继续跳水的2019年,小米的品牌均价却异常坚挺,此消彼长,今日的小米电视已昂首迈入了线上市场品牌溢价的国产一线梯队。而在部分新兴品类,如毛利较高的净水器市场中,小米的线上均价甚至超过了数家国产一线品牌,这或许意味着,在同样的经济成本前,新兴市场的消费者与传统品牌已从貌合神离到渐行渐远了。 4C与人群细分 自上世纪中叶麦卡锡教授提出基本结构,4P理论影响并指导了大部分成功企业的市场营销工作。而进入新世纪后

手推公式+项目实操复现!《机器学习》完整详解

China☆狼群 提交于 2020-12-08 06:31:28
相信很多朋友对机器学习算法都有所了解,有尝试学习并利用机器学习算法以及工具做一些AI产品! 但是仅仅停留在“调包”的阶段。 想去深入理解一些算法的核心内涵却被 XGBoost | GBDT 等算法劝退了! 为了满足全民学习AI的需求,给大家推荐一款轻松入门 机器学习算法课程 , 涵盖 17大经典机器学习算法模型,21+案例练习,8大项目实战 。 今日开课,限 100个 体验名额 01 十七大经典算法模型 | K-NN最近邻 | 线性回归 | 逻辑回归 | | 凸优化 | 朴素贝叶斯 | 支持向量机 | | 决策树 | 随机森林 | GBDT | | XGBoost | 矩阵分解 | K-Means | | GMM | 主题模型 | EM | 聚类 | PCA | 02 21个项目案例讲解 01、回归分析身高预测 02、 利用KNN筛选简历 03、 二手车价格预估 04、 量化投资之股票价格预测 05、 预测广告点击率 06、 利用L1正则模拟神经科学中的稀疏性 07、 垃圾邮件分类 08、 员工离职率预测 09、 基于随机森林的疾病分析 10、 利用GBDT解决搜索中的排序问题 11、 人脸识别 12、 基于聚类的消费群分类 13、 内容推荐算法的电影推荐引擎 14、 基于协同过滤算法的音乐推荐引擎 15、 搭建OCR识别引擎 16、 利用聚类算法压缩图片 17、

stata中的自相关修正(可行广义最小二乘FGLS)操作及其分析

馋奶兔 提交于 2020-12-07 03:35:56
之前讲了 回归分析诊断中的自相关 检验,接下来针对前边的模型进行修正 ,stata中主要有4种方法,包括HAC稳健标准差、聚类稳健标准差、广义最小二乘法、修改模型等,这里先介绍前两种方法的基本原理与stata操作 , 并对结果如何进行分析与判断。 1 仍然选取 美国汽油需求数据gasoline.dta作为示例,其样本有52个,数据展示如下: 这里建立如下回归模型: 用 stata 进行估计,代码为: regress lgasq lincome lgasp lpnc lpuc 结果为: 2 要想了解FGLS,必须先了解GLS,即广义最小二乘法,它是通过对随机误差项的协方差矩阵var(u)进行转换,利用残差对其滞后项回归得到的自相关系数,对 var(u)进行转换, 并利用转换后的 var(u) 对方程进行估计。 通常 随机误差项的协方差矩阵 var(u) 并不是已知的,这还需要 对估计出方差、协方差矩阵,这就是FGLS。 同时由于使用了滞后项,所以第一个观测值的无法从滞后项的角度获取自相关系数,那么忽略 第一个观测值 的就是Cochrane-Orcutt估计法。 如果补上第一个观测值,利用下面的公式转换,并进行OLS估计: 那就是Prais-Winsten估计法。 3 以 gasoline.dta 为例,在OLS回归的基础上, 《 stata中的自相关检验(LM检验、Q检验、DW检验