决策树

特征工程之特征预处理

狂风中的少年 提交于 2020-10-21 02:02:55
    在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化      由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体的预处理操作。     z-score标准化:这是最常见的特征预处理方式,基本所有的线性模型在拟合的时候都会做 z-score标准化。具体的方法是求出样本特征x的均值mean和标准差std,然后用(x-mean)/std来代替原特征。这样特征就变成了均值为0,方差为1了。在sklearn中,我们可以用StandardScaler来做z-score标准化。当然,如果我们是用pandas做数据预处理,可以自己在数据框里面减去均值,再除以方差,自己做z-score标准化。     max-min标准化:也称为离差标准化,预处理后使特征值映射到[0,1]之间。具体的方法是求出样本特征x的最大值max和最小值min,然后用(x-min)/(max-min)来代替原特征。如果我们希望将数据映射到任意一个区间[a,b],而不是[0,1],那么也很简单。用(x-min)(b-a)/(max-min)+a来代替原特征即可。在sklearn中,我们可以用MinMaxScaler来做max

吐血整理:24种可视化图表优缺点对比,一图看懂!

耗尽温柔 提交于 2020-10-09 08:08:42
来源:大数据DT 本文 约3900字 ,建议 阅读7分钟 史上最全图表类型术语&指南来了! 安德鲁·阿伯拉(Andrew Abela)制作的《这份指南》(This Guide)是思考图表类型的一个很好的起点,但不要把它用作决策引擎。并不是人人都同意他对图表类型的组织方式,层级结构并且其中并未包含所有有效的图表类型。 事实上,这里显示的每个图表都有许多变体和混合,而且 人们时时刻刻都在创建出新的图表类型 。此外,当你想要拓展自己的思维,尝试多种方法时,这个工具可能缩小你的思考范围。 但是,它将帮助你理解各种形式的类别(例如,比较和分布),并且 可能激发你尝试一些新东西 。我已经对《这份指南》进行了调整,使之与“交谈-画草图-创建原型”的框架相适应。至于我是怎样调整的,请参见下图。 01 2×2矩阵 也叫矩阵,水平和垂直平分的方框,形成了四个象限。它常用于说明基于两个变量的类型。 优点 :针对元素分类和“区域”创建的易于使用的组织原则。 缺点 :在不同的空间间隔绘制象限内的项,暗示两者可能不存在统计关系。 02 冲积图 也称为流图,显示值怎样从一个点移动到另一个点的节点和流。这通常用于展示值在一段时间内的变化,或者其组织方式的细节,例如,预算拨款如何逐月使用。 优点 :在值的更改中公开详细信息,或者在广泛数据类别中公开地详细分解。 缺点 :流中的许多值和变化导致复杂而且交叉的视觉效果

某银行业务数据分析和挖掘

人盡茶涼 提交于 2020-10-07 07:27:06
内容简介 第一,对某银行某次营销活动受众客户的特征进行了描述性统计,考察了营销活动的总体效果;同时还进行了特征间的相关性分析,筛选掉了与响应行为之间没有显著相关性的特征。 第二,分别考察了存款和个贷客户在年龄、年收入等6个特征上的分布情况,分析了存款和个贷客户的自然属性和消费行为特征,并据此构建了存款客户画像和个贷客户画像。 第三,运用Apriori关联规则算法分析了各类业务之间的关联,并重点总结出了存款客户中潜在个贷客户的特征。 第四,根据以上分析结果尝试为该银行扩大各类业务客户基数,提高获客能力提出建议。 最后,根据分析出的个贷客户画像对客户是否办理个贷业务进行建模,得出最优分类器;当有新的客户数据时便可以使用该模型对客户办理个贷业务的可能性进行预测。 关键词:Python,客户画像,二分类,关联分析 一、项目描述 1、项目说明 (1)数据来源:本项目所用数据来源于kaggle平台,该数据集展示了某银行某年一次贷款营销活动的5,000条客户信息记录。 (2)使用工具:本项目的分析和可视化都是使用Python完成的,但相关性分析用到了SPSS。 (3)数据描述:数据字典如下所示: 表1 数据字典 2、业务需求 2.1 业务背景 某银行是一家客户群不断增长的银行,但其贷款业务的客户基数较小,因此该银行希望能够将存款用户转化为贷款用户,扩大贷款业务量

excel插件开发,Smartbi免费版安装流程

痞子三分冷 提交于 2020-10-07 01:27:34
excel插件开发,Smartbi免费版安装流程 自动安装 1、安装Microsoft .Net Framework 4.0 Full 2、获取安装介质 插件安装包不包含在标准的产品安装包中,若需对插件进行学习或使用,请到官网进行下载。 3、点击安装介质,弹出安装界面如图: 4、点击 下一步 ,配置安装路径: 5、点击 下一步,检测是否有插件正在被使用: 6、点击 安装,进行安装: 7、安装完成。 插件升级 Excel插件支持在线更新的方式。 系统检测更新 设计、维护用户在每次使用Excel插件登录的时候,会检测服务器插件版本是否有更新; 若服务器上Excel插件有了新版本,则会提示更新,按提示进行更新即可。 手动检测更新 点击工具栏的 更新 按钮,进行更新: 安装环境要求 关于电子表格插件的安装环境要求,详情请参考官网产品在线文档或咨询客服· 关于Smartbi Smartbi强大的数据分析能力,人人可用的自助式BI。简便的操作,专业化的要求不高。可以大范围的应用。使得Smartbi在BI领域独树一帜。 1、下载安装 下载和安装很简单,官网上直接下载。启动软件时会加载数据日志,但是所有操作都在web端。 2、学习教程 激活时会发送一个学习资料包,有功能教学视频,还有学习帮助文档,下载激活时大家留心,记得收藏。除此之外,还有个学习交流的论坛,提问回答好积极,对技术宅来讲是极好的。

新手一看就秒懂的数据挖掘的10大算法

狂风中的少年 提交于 2020-10-05 06:23:29
一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。 数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。 算法分类 连接分析:PageRank 关联分析:Apriori 分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART 聚类算法:K-Means,EM 一、PageRank 当一篇论文被引用的次数越多,证明这篇论文的影响力越大。 一个网页的入口越多,入链越优质,网页的质量越高。 原理 网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和 一个网页的影响力:所有入链的页面的加权影响力之和。 一个网页对其他网页的影响力贡献为:自身影响力/出链数量。 用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。 所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。 比喻说明 1、微博 一个人的微博粉丝数不一定等于他的实际影响力,还需要看粉丝的质量如何。 如果是僵尸粉没什么用

9/1微软面试模拟题

ぃ、小莉子 提交于 2020-10-04 03:30:22
一面 自我介绍 你觉得情感分析方向的难点在哪 介绍一下数学建模的工作 以上为项目介绍 写题:扑克牌打乱顺序,要求空间O(1) 洗牌算法 Easy 了解动态链接库和静态链接库吗?了解虚函数么? 它们都是共享代码的方式。 动态链接使用动态链接库,动态链接允许可执行文件(.dll或.exe)在运行时调用动态链接库中的某个函数。(程序运行阶段) 静态链接使用静态链接库,链接器从静态链接库获取所有被引用函数,并将这些函数加入到可执行文件中。(程序编译链接阶段) 假如我有一个exe,这个exe是根据一个cpp文件得到的,cpp文件里面有一个main函数,main里面有一句print函数,main函数之前会有一些变量,说一下从我的鼠标点击运行开始到这个main的return之后的全部过程。 写题:链表深拷贝(可能有环,可能无环) 使用一个额外的Hash表,先复制一遍节点,再对应连线 反问 二面: 自我介绍(英文) 你的project中代码量多少(英文) 写题:给定一个sorted array,整型,要求输出缺失的数字。比如输入[5,6,7,11,13],输出8,9,10,12 使用O(N)的空间 反问 三面: 自我介绍 聊项目 说一个机器学习算法吧(说了决策树)说一下决策树的构建过程 做题:剑指offer 46,输出是所有的可生成的字符串,但是a是对应的1

推荐 :机器学习集成学习与模型融合!

无人久伴 提交于 2020-10-01 18:31:26
Datawhale干货 作者: 李祖贤,深圳大学,Datawhale高校群成员 对比过kaggle比赛上面的top10的模型,除了深度学习以外的模型基本上都是集成学习的产物。集成学习可谓是上分大杀器,今天就跟 大家分享在Kaggle或者阿里天池上面大杀四方的数据科学比赛利器---集成学习。 一、什么是集成学习 正所谓“三个臭皮匠赛过诸葛亮”的道理,在机器学习数据挖掘的工程项目中,使用单一决策的弱分类器显然不是一个明智的选择,因为各种分类器在设计的时候都有自己的优势和缺点,也就是说每个分类器都有自己工作偏向,那集成学习就是平衡各个分类器的优缺点,使得我们的分类任务完成的更加优秀。 在大多数情况下,这些基本模型本身的性能并不是非常好,这要么是因为它们具有较高的偏差(例如,低自由度模型),要么是因为他们的方差太大导致鲁棒性不强(例如,高自由度模型)。集成方法的思想是通过将这些弱学习器的偏差和/或方差结合起来,从而创建一个「强学习器」(或「集成模型」),从而获得更好的性能。 集成学习的方法: 1. 基于投票思想的多数票机制的集成分类器(MajorityVoteClassifier) 2. 于bagging思想的套袋集成技术(BaggingClassifier) 3. 基于boosting思想的自适应增强方法(Adaboost) 4. 分层模型集成框架stacking(叠加算法) 二

【机器学习】机器学习算法优缺点对比(汇总篇)

女生的网名这么多〃 提交于 2020-10-01 15:08:21
作者 | 杜博亚 来源 | 阿泽的学习笔记 「本文的目的,是务实、简洁地盘点一番当前机器学习算法」。文中内容结合了个人在查阅资料过程中收集到的前人总结,同时添加了部分自身总结,在这里,依据实际使用中的经验,将对此模型优缺点及选择详加讨论。 主要回顾下几个常用算法的适应场景及其优缺点! 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。 假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。 天下没有免费的午餐 在机器学习领域,一个基本的定理就是“没有免费的午餐”。「换言之,就是没有算法能完美地解决所有问题,尤其是对监督学习而言(例如预测建模)」。 举例来说,你不能去说神经网络任何情况下都能比决策树更有优势,反之亦然。它们要受很多因素的影响,比如你的数据集的规模或结构。

能对话讲故事,他用树莓派把60年代的老式收音机改造成智能音箱

旧城冷巷雨未停 提交于 2020-10-01 09:13:19
  机器之心报道    作者:蛋酱    爷爷留给我的收音机,大概可以焕发新生了。   对于大部分年轻人来说,老式收音机都是不可磨灭的童年回忆。随着科技的发展,我们收听有声内容的方式从收音机变成了手机,后来又变成了智能音箱,而内容本身也从电台节目变成了播客。   近日,YouTube 上的一位博主将一台老式德律风根收音机改造成了能讲故事、能对话的智能音箱。      改造这样一台收音机并不困难。首先,我们准备一下所需要的的材料:   树莓派   Google AIY 语音套件 v1   无线电   Google Cloud Platform   Google Dialogflow   螺丝刀   焊接设备   接线   扬声器   开关    硬件组装   像大多数改造类的手工项目一样,本次也是使用一些旧的电子设备,确切地说是一台德律风根收音机,产于 1960 年代的西德。在完成拆解工作以后,他们保留了扬声器和按钮的部分。然后添加树莓派和其他零件。      如果想要实现可交互功能,意味着必须有一个麦克风和扬声器,并具备处理能力。这里使用的是 Google AIY 语音工具包,按照其操作说明即可。         树莓派安装在右下角。    如何讲故事   作者设计了一个决策树,提供了一个严格的故事框架,因此用户不能随意提问。      当你看到这个框架后

能对话、能讲故事,他用树莓派把1960年代的老式收音机改造成了智能音箱

纵饮孤独 提交于 2020-10-01 07:50:11
  机器之心报道    作者:蛋酱    爷爷留给我的收音机,大概可以焕发新生了。   对于大部分年轻人来说,老式收音机都是不可磨灭的童年回忆。 随着科技的发展,我们收听有声内容的方式从收音机变成了手机,后来又变成了智能音箱,而内容本身也从电台节目变成了播客。   近日,YouTube 上的一位博主将一台老式德律风根收音机改造成了能讲故事、能对话的智能音箱。      改造这样一台收音机并不困难。首先,我们准备一下所需要的的材料:   树莓派   Google AIY 语音套件 v1   无线电   Google Cloud Platform   Google Dialogflow   螺丝刀   焊接设备   接线   扬声器   开关    硬件组装   像大多数改造类的手工项目一样,本次也是使用一些旧的电子设备,确切地说是一台德律风根收音机,产于 1960 年代的西德。在完成拆解工作以后,他们保留了扬声器和按钮的部分。然后添加树莓派和其他零件。      如果想要实现可交互功能,意味着必须有一个麦克风和扬声器,并具备处理能力。这里使用的是 Google AIY 语音工具包,按照其操作说明即可。         树莓派安装在右下角。    如何讲故事   作者设计了一个决策树,提供了一个严格的故事框架,因此用户不能随意提问。      当你看到这个框架后