xgboost

Python机器学习笔记 集成学习总结

给你一囗甜甜゛ 提交于 2020-04-12 15:01:23
  集成学习(Ensemble learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器显著优越的泛化性能。它不是一种单独的机器学习算法啊,而更像是一种优化策略。因为单个机器学习模型所能解决的问题有限,泛化能力差,但是通过构建组合多个学习器来完成学习任务往往能够获得奇效,这些学习器可以看成一个个基本单元,由他们组合最终形成一个强大的整体,该整体可以解决更复杂的问题,其思想可以形象的概括为 三个臭皮匠赛过诸葛亮 。   集成学习是机器学习的一大分支,他通过建立几个模型组合来解决单一预测问题。他的工作原理是生成多个分类器模型,各个独立的学习和做出预测。这些预测最后结合成单预测,最后由任何一个单分类做出预测。   集成学习的一般结构是,先产生一组个体学习器,再用某种结合策略将他们结合起来。   集成学习是一种技术框架,其按照不同的思路来组合基础模型,从而达到其利断金的目的。目前,有三种常用的集成学习框架:bagging ,Boosting和stacking。国内南京大学的周志华教授对集成学习有很深的研究,其在09年发表的一篇概述性论文《Ensemble Learning》对这三种集成学习框架有了明确的定义,大家可以百度搜索这篇论文。 集成学习优势   1,个体学习器之间存在一定的差异性,这会导致分类边界不同,也就是说可能存在错误

GBDT回归树过程详解

百般思念 提交于 2020-04-06 09:53:18
GBDT回归树过程详解 转载 简单点1024 最后发布于2018-04-11 22:56:46 阅读数 10281 收藏 展开 综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。   GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。   GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。业界中,Facebook使用其来自动发现有效的特征、特征组合,来作为LR模型中的特征,以提高 CTR预估(Click-Through Rate Prediction)的准确性(详见参考文献5、6);GBDT在淘宝的搜索及预测业务上也发挥了重要作用(详见参考文献7)。 一、Regression Decision Tree:回归树 回归树总体流程类似于分类树,区别在于,回归树的每一个节点都会得一个预测值,以年龄为例,该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个feature的每个阈值找最好的分割点,但衡量最好的标准不再是最大熵,而是最小化平方误差。也就是被预测出错的人数越多

Python数据预处理:机器学习、人工智能通用技术(1)

僤鯓⒐⒋嵵緔 提交于 2020-04-06 04:54:40
Python数据预处理:机器学习、人工智能通用技术 白宁超 2018年12月24日17:28:26 摘要: 大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题。原始数据存在大量不完整、不一致、有异常的数据,严重影响到数据建模的执行效率,甚至可能导致模型结果的偏差,因此要数据预处。数据预处理主要是将原始数据经过文本抽取、数据清理、数据集成、数据处理、数据变换、数据降维等处理后,不仅提高了数据质量,而且更好的提升算法模型性能。数据预处理在数据挖掘、自然语言处理、机器学习、深度学习算法中起着重要的作用。( 本文原创,转载必须注明出处 .) 1 什么是数据预处理 数据预处理简而言之就是将 原始数据 装进一个 预处理的黑匣子 之后,产生出 高质量数据 用来适应相关技术或者算法模型。为了大家更明确的了解数据预处理,我们举个新闻分类的例子: 将原始的数据直接进行分类模型训练,分类器准确率和召回率都比较低。因为我们原始数据存在很多干扰项,比如 的 , 是 等这些所谓停用词特征对分类起的作用不大,很难达到工程应用。 我们将原始数据放假预处理黑匣子后,会自动过滤掉干扰数据,并且还会按照规约的方法体现每个词特征的重要性,然后将词特征压缩变换在数值型矩阵中,再通过分类器就会取得不错的效果,可以进行工程应用。 总结 :数据预处理前的数据存在不完整、偏态、噪声、特征比重、特征维度、缺失值

Credit Fraud信用卡欺诈数据集,如何处理非平衡数据

寵の児 提交于 2020-04-06 02:06:20
Credit Fraud 简介 数据来源 模型评价标准 不平衡样本的处理 不平衡样本的分析 不处理样本 不设置权重 设置权重,使用balanced 设置权重,使用不同的权重 AUC(ROC) 与 AUC(PRC)对比 升采样 升采样SMOTE XGBoost 建模 参考链接 简介 数据来源 数据集源自位于比利时布鲁塞尔ULB(Université Libre de Bruxelles) 的研究小组Worldline and the Machine Learning Group。数据集包含由欧洲持卡人于2013年9月使用信用卡在两天内发生的交易,284,807笔交易中有492笔被盗刷,正类(被盗刷)占所有交易的0.172%,数据集非常不平衡。它只包含作为PCA转换结果的数字输入变量。由于保密问题,特征V1,V2,… V28是使用PCA获得的主要组件,只有“交易时间”和“交易额”是原始特征。 可以从以下几个方面来探索数据集: 识别信用卡盗刷; 不平衡样本的处理方式 尝试不同的重采样是如何影响模型的效果 模型可以尝试Logistic回归、svm、决策树、XGBoost等进行预测 模型评价标准 由于样本的不平衡性与不平衡率,推荐使用Area Under the Precision-Recall Curve (AUPRC)来衡量准确率。注意,对于非平衡样本的分类,不推荐使用混淆矩阵

数据缺失值处理办法

梦想与她 提交于 2020-04-01 09:59:45
1.随机森林模型怎么处理异常值? 隨机森:林是已故统计学家Leo Breiman提出的,和gradient boosted tree—样,它的基模型是决策树。在介绍RF时,Breiman就提出两种解决缺失值的方去 (Random forests - classification description): 方法1(快速简草但效果差): 把数值型变畺(numerical variables)中的缺失值用其所对应的类别中 (class)的中位数(median)替换。描述型变畺(categorical variables)缺失的部分用所对应类别中出现最多的数值替代(most frequent non-missing value)。以数值型变悬为例: 方法2(耗时费力但效果好):虽然依然是便用中位数出现次敎最多的数来进行替换,方法2引入 了权重。即对需要替换的数据先和其他数据做相似度测量(proximity measurement)也就是下面 公式中的Weight,在补全缺失点是相似的点的数据会有更高的权重W。以数值型变畺为例: Breiman说明了第二种方法的效果更好,但雲要的时间更长,这也是为什么工具包中不提供数据补全的功能,因为会影响到工具包的效率。 在训练、验证、测试含有缺失值时怎么办? 在选择分裂属性的时候,训练样本存在缺失值,如何处理?(计算分裂损失减少值时,忽略特征缺失的样本

Why are there discrepancies in xgboost regression prediction from individual trees?

主宰稳场 提交于 2020-03-19 06:22:31
问题 First I run a very simple xgb regression model which contains only 2 trees with 1 leaf each. Data available here. (I understand this is a classification dataset but I just force the regression to demonstrate the question here): import numpy as np from numpy import loadtxt from xgboost import XGBClassifier,XGBRegressor from xgboost import plot_tree import matplotlib.pyplot as plt plt.rc('figure', figsize=[10,7]) # load data dataset = loadtxt('pima-indians-diabetes.csv', delimiter=",") # split

神州信息智能头寸管理平台签约多家银行,实现流动性管理精准预测

懵懂的女人 提交于 2020-03-04 11:52:22
如何实现资金在“流动性、盈利性、安全性”三者制衡间的高效流转使用,一直是困扰银行流动性资金管理的一大阻碍,导致国内银行普遍无法实现对流动性收益的最大化。 近日,神州信息智能头寸管理平台(以下简称:智能头寸平台)再落新单,签约苏州银行资金头寸管理系统建设项目。神州信息通过“AI+头寸”的创新应用,极大改进了银行现行头寸资金的管理模式。从流动性风险预判预警;交易联动的统筹管理;本外币头寸的系统化、精细化管理等多维度,实现银行对头寸资金管控的智能化,即:“事前智能预测、事中智能监控、事后智能分析”的目标。 流动性一直被视作银行的“生命线”,直接关乎银行的安危。现阶段,“防范化解金融风险特别是防止发生系统性金融风险”已成为国内金融行业根本性任务之一。头寸管理作为银行流动性管理不可或缺的重要组成,直接影响银行短期资金的流动性安全。 “AI+头寸管理,让银行未卜先知成为可能”神州信息人工智能专家表示,模型和算法是AI技术的核心,此次AI技术应用有效解决了银行针对资金流动性“分析和预测”两大难题。针对流动性预测这一典型的时间序列建模问题,应用AI技术中LSTM(Long Short Term Memory)完成模型建设,实现对银行历史支付数据的快速分析,并融合XGBoost (Extreme Gradient Boosting)机器学习算法,最终实现对短期流动性精准预测。经比对

MS

妖精的绣舞 提交于 2020-02-29 19:35:44
Project 1.AML 有label的: - down sampling /xgboost/Hql 无label的: - Autoencoder 2.CRANE: 改正features / add new features 3. Branchpiitsstop - R/R shiny/Xgboost explainer/Shap value 4. Spark - 改写pyspark - Audit report 重新clustering (LDA) hql和sql 的区别: https://blog.csdn.net/qq_28633249/article/details/77884062 项目用到的算法 : Xgboost(原理 https://zhuanlan.zhihu.com/p/92229766 /调参 https://zhuanlan.zhihu.com/p/29649128 ); boosting/bagging/stacking https://zhuanlan.zhihu.com/p/41809927 ;Decisoin tree;Autoencoder;LDA 机器学习算法 1.常用算法 LR https://zhuanlan.zhihu.com/p/40994642 SVM https://zhuanlan.zhihu.com/p/84796233

win 环境 anaconda 安装xgboost

扶醉桌前 提交于 2020-02-25 16:36:10
1:下载相关boost 包 链接:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 2:选择适合自己环境的包 mine:xgboost-1.0.1-cp37-cp37m-win_amd64.whl 3:指令安装 注意 :1-包下载知乎之后安装在哪都可以; 2-按照黑框提示做,升级一下 pip 3-安装xgboost指令 4-conda list 验证是否成功 来源: CSDN 作者: 侠客儿青争ing 链接: https://blog.csdn.net/qq_33837905/article/details/104496762

从结构到性能,一文概述XGBoost、Light GBM和CatBoost的同与不同

ⅰ亾dé卋堺 提交于 2020-02-25 15:48:18
尽管近年来神经网络复兴并大为流行,但是 boosting 算法在训练样本量有限、所需训练时间较短、缺乏调参知识等场景依然有其不可或缺的优势。本文从算法结构差异、每个算法的分类变量时的处理、算法在数据集上的实现等多个方面对 3 种代表性的 boosting 算法 CatBoost、Light GBM 和 XGBoost 进行了对比;虽然本文结论依据于特定的数据集,但通常情况下,XGBoost 都比另外两个算法慢。 最近,我参加了 kaggle 竞赛 WIDS Datathon,并通过使用多种 boosting 算法,最终排名前十。从那时开始,我就对这些算法的内在工作原理非常好奇,包括调参及其优劣势,所以有了这篇文章。尽管最近几年神经网络复兴,并变得流行起来,但我还是更加关注 boosting 算法,因为在训练样本量有限、所需训练时间较短、缺乏调参知识的场景中,它们依然拥有绝对优势。 2014 年 3 月,XGBOOST 最早作为研究项目,由陈天奇提出2017 年 1 月,微软发布首个稳定版 LightGBM2017 年 4 月,俄罗斯顶尖技术公司 Yandex 开源 CatBoost 由于 XGBoost(通常被称为 GBM 杀手)已经在机器学习领域出现了很久,如今有非常多详细论述它的文章,所以本文将重点讨论 CatBoost 和 LGBM,在下文我们将谈到: