xgboost

mac安装xgboost

阅读更多关于 mac安装xgboost

官网安装说明地址: http://xgboost.readthedocs.io/en/latest/build.html#building-on-osx 单线程版: 第一步:clone代码: git clone --recursive https://github.com/dmlc/xgboost 第二步: cd xgboost ; cp make/minimum.mk ./config.mk ; make -j4 多线程版: 第一步:clone代码: git clone --recursive https://github.com/dmlc/xgboost 第二步:安装最新版gcc:最好用的homebrew brew install gcc 第三步: cp make/config.mk ./config.mk 第四步: vim config.mk修改成如下配置 # choice of compiler, by default use system preference. export CC = gcc-6 export CXX = g++-6 # export MPICXX = mpicxx 第五步: 按照官网的 make -j4 来编译，未成功，改用下面这种方法来编译： ./build.sh 出现如下提示表示安装成功 Successfully build single

opening old xgboost pickles with the new xgboost version 'XGBClassifier' object has no attribute 'kwargs'

阅读更多关于 opening old xgboost pickles with the new xgboost version 'XGBClassifier' object has no attribute 'kwargs'

问题 I was using xgboost version 0.6 when I pickled some pickle objects. Now I upgraded to version 0.82 and when I'm trying to unpickle the old models I get: AttributeError: 'XGBClassifier' object has no attribute 'kwargs' I would really like to use these model without re training them, is there any way to open these pickles? 回答1: The new xgboost requires that objects will have a "kwargs" attribute, which old models do not have. One way to solve this is to downgrade to the old xgboost version,

opening old xgboost pickles with the new xgboost version 'XGBClassifier' object has no attribute 'kwargs'

阅读更多关于 opening old xgboost pickles with the new xgboost version 'XGBClassifier' object has no attribute 'kwargs'

LightGBM介绍及参数调优

阅读更多关于 LightGBM介绍及参数调优

1、LightGBM简介　　LightGBM是一个梯度Boosting框架，使用基于决策树的学习算法。它可以说是分布式的，高效的，有以下优势：　　1）更快的训练效率　　2）低内存使用　　3）更高的准确率　　4）支持并行化学习　　5）可以处理大规模数据　　与常见的机器学习算法对比，速度是非常快的　　 2、XGboost的缺点　　在讨论LightGBM时，不可避免的会提到XGboost，关于XGboost可以参考此博文　　关于XGboost的不足之处主要有：　　1）每轮迭代时，都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小；如果不装进内存，反复地读写训练数据又会消耗非常大的时间。　　2）预排序方法的时间和空间的消耗都很大 3、LightGBM原理　　1）直方图算法　　直方图算法的基本思想是先把连续的浮点特征值离散化成kk个整数，同时构造一个宽度为kk的直方图。在遍历数据的时候，根据离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点。在XGBoost中需要遍历所有离散化的值，而在这里只要遍历kk个直方图的值。　　　　使用直方图算法有很多优点。首先，最明显就是内存消耗的降低，直方图算法不仅不需要额外存储预排序的结果，而且可以只保存特征离散化后的值。

Can I use XGBoost to boost other models (eg. Naive Bayes, Random Forest)?

阅读更多关于 Can I use XGBoost to boost other models (eg. Naive Bayes, Random Forest)?

问题 I am working on a fraud analytics project and I need some help with boosting. Previously, I used SAS Enterprise Miner to learn more about boosting/ensemble techniques and I learned that boosting can help to improve the performance of a model. Currently, my group have completed the following models on Python: Naive Bayes, Random Forest, and Neural Network We want to use XGBoost to make the F1-score better. I am not sure if this is possible since I only come across tutorials on how to do

集成学习之Boosting —— XGBoost

阅读更多关于集成学习之Boosting —— XGBoost

集成学习之Boosting —— AdaBoost 集成学习之Boosting —— Gradient Boosting 集成学习之Boosting —— XGBoost Gradient Boosting 可以看做是一个总体的算法框架，起始于Friedman 的论文 [ Greedy Function Approximation: A Gradient Boosting Machine ] 。XGBoost (eXtreme Gradient Boosting) 是于2015年提出的一个新的 Gradient Boosting 实现，由华盛顿大学的陈天奇等人开发，在速度和精度上都有显著提升，因而近年来在 Kaggle 等各大数据科学比赛中都得到了广泛应用。本文主要对其原理进行阐述，并将其与传统的 GBDT 进行比较。大体来看，XGBoost 在原理方面的改进主要就是在损失函数上作文章。一是在原损失函数的基础上添加了正则化项产生了新的目标函数，这类似于对每棵树进行了剪枝并限制了叶结点上的分数来防止过拟合。二是对目标函数进行二阶泰勒展开，以类似牛顿法的方式来进行优化（事实上早在 [ Friedman, J., Hastie, T. and Tibshirani, R., 1999 ] 中就已有类似方案，即利用二阶导信息来最小化目标函数，陈天奇在论文中也提到了这一点）。

论文笔记 XGBoost: A Scalable Tree Boosting System

阅读更多关于论文笔记 XGBoost: A Scalable Tree Boosting System

　　XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器，其更关注与降低基模型的偏差。XGBoost是一种提升树模型（Gradient boost machine），其将许多树模型集成在一起，形成一个很强的分类器。而所用到的树模型则是CART回归树模型。讲解其原理前，先讲解一下CART回归树。一、CART回归树　　 CART回归树中定义树为二叉树，通过GINI增益函数选定最优划分属性。由于CART为二叉树，与其他决策树相比其在选择了最优分类特征之后，还需要选择一个最优的特征值划分点。比如当前树结点是基于第j个特征值进行分裂的，设该特征值小于s的样本划分为左子树，大于s的样本划分为右子树。 CART回归树实质上就是在该特征维度对样本空间进行划分，而这种空间划分的优化是一种NP难问题，因此，在决策树模型中是使用启发式方法解决。典型CART回归树产生的目标函数为：因此，当我们为了求解最优的切分特征j和最优的切分点s，就转化为求解这么一个目标函数：所以我们只要遍历所有特征的的所有切分点，就能找到最优的切分特征和切分点。最终得到一棵回归树。二、XGBoost基本思想　　 XGBoost的核心思想与GBM一致，其在实现的过程中通过不断地添加新的树（基模型），不断地进行特征分裂来生长一棵树，每次添加一个树

阅读更多关于 XGBoost

https://www.bilibili.com/video/av73628787 06 回归算法 - 损失函数、过拟合欠拟合 https://www.jianshu.com/p/83c89b89b98f 08 回归算法 - 解决过拟合 - L2(Ridge)和L1(LASSO)正则 https://www.jianshu.com/p/e64ffea5083a 08 集成学习 - XGBoost概述 https://www.jianshu.com/p/352a03ace098 来源： CSDN 作者： weixin_40259777 链接： https://blog.csdn.net/weixin_40259777/article/details/104101137

ANACONDA安装XGBOOST包

阅读更多关于 ANACONDA安装XGBOOST包

Anaconda是个非常方便同时功能强大的python环境管理工具，本篇blog主讲如何利用anaconda安装一些pip安装麻烦的包，比如XGBoost。 #正文标准语法： conda install pack_name 但是有时候呢，直接这么安装可能会遇到一些问题（大家都懂的，这个环境不对啊，位数不对之类的T-T）例如，下图所示：但是不要慌，我们还有备用的方法。 #高级指令这个时候用一下这个方法： anaconda search - t conda xgboost 结果如下图所示：因为我的机器是win64，同时python是3.6，所以选择了这个包。输入如下指令： conda install - c anaconda py - xgboost 成功安装，如图所示：来源： CSDN 作者：一株草的世界链接： https://blog.csdn.net/qq_38607066/article/details/104089007

pandas.DataFrame及xgboost代码示例

阅读更多关于 pandas.DataFrame及xgboost代码示例

import numpy as np import pandas as pd #DataFrame的操作方法见 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html data_part1 = pd . read_csv ( 'meinian_round1_data_part1_20180408.txt' , sep = '$' , low_memory = False ) data_part2 = pd . read_csv ( 'meinian_round1_data_part2_20180408.txt' , sep = '$' , low_memory = False ) #数据的维度 data_part1 . shape data_part2 . shape #数据的列名 data_part1 . columns #第一行的table_id data_part1 . table_id [ 0 ] #拼接两个数据，参数axis=0表示上下拼接，axis=1表示左右拼接 data_part = pd . concat ( [ df1 , df2 ] , axis = 0 ) . reset_index ( ) data_part . shape def saveTable_id

订阅 xgboost