xgboost

xgboost : The meaning of the base_score parameter

◇◆丶佛笑我妖孽 提交于 2020-12-01 02:33:19
问题 In the documentation of xgboost I read: base_score [default=0.5] : the initial prediction score of all instances, global bias What is the meaning of this phrase? Is the base score the prior probability of the Event of Interest in the Dataset? I.e. in a dataset of 1,000 observations with 300 Positives and 700 Negatives the base score would be 0.3? If not, what it would be? Your advice will be appreciated. 回答1: I think your understanding is correct, in your example the base score could be set

xgboost : The meaning of the base_score parameter

不问归期 提交于 2020-12-01 02:31:51
问题 In the documentation of xgboost I read: base_score [default=0.5] : the initial prediction score of all instances, global bias What is the meaning of this phrase? Is the base score the prior probability of the Event of Interest in the Dataset? I.e. in a dataset of 1,000 observations with 300 Positives and 700 Negatives the base score would be 0.3? If not, what it would be? Your advice will be appreciated. 回答1: I think your understanding is correct, in your example the base score could be set

XGBoost的优点

江枫思渺然 提交于 2020-11-22 03:33:04
1. Gradient boosting(GB) Gradient boosting的思想是迭代生多个(M个)弱的模型,然后将每个弱模型的预测结果相加,后面的模型Fm+1(x)基于前面学习模型的Fm(x)的效果生成的,关系如下: 实际中往往是基于loss Function 在函数空间的的 负梯度学习 ,对于回归问题 残差和负梯度也是相同的。 中的f,不要理解为传统意义上的函数,而是一个函数向量 ,向量中元素的个数与训练样本的个数相同,因此基于Loss Function函数空间的 负梯度的学习 也称为“伪残差”。 2. Gradient boosting Decision Tree(GBDT) GBDT是GB和DT的结合。要注意的是这里的 决策树是回归树 , GBDT实际的核心问题变成怎么基于 使用CART回归树生成 ? 3. Xgboost xgboost中的基学习器除了可以是CART(gbtree)也可以是线性分类器(gblinear) (1). xgboost在目标函数中显示的加上了 正则化 项,基学习为CART时,正则化项与树的叶子节点的数量T和叶子节点的值有关。 正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。 从Bias-variance tradeoff角度来讲,正则项降低了模型的variance,使学习出来的模型更加简单,防止过拟合

用数据分析理论解读双十一背后的技术

走远了吗. 提交于 2020-11-14 02:51:29
全民狂欢购物的双十一背后,有很多技术在支撑,利用正确的技术手段可以在双十一为我所用。我们以化妆品电商为例,解析一下如何通过数据分析的方式让电商的双十一准备更高效充分。 基于历史数据进行分析建模对今年的销售情况进行预测,能够帮助商家做出更科学的营销方案。通常我们所能够收集到的历史数据包含了时间、名称、价格、销量、评论数量、商户等数据。 在已有数据中(数据量有限,仅用作构建分析模型之用,不作为参考),我们发现“title”这一列里面的信息量很大,但由于都是杂乱无章的文本数据,不能直接做分析,所以首先需要通过自然语言处理技术对数据进行处理。处理之后,会清清晰的得到产品大类、小类、产品功效之类等变量。 根据数据变量的特征,分别用线性回归、决策树、随机森林、XgBoost 等算法建模并比较,得到一个最佳的预测模型。起初,这些特征和销售量的关系单从数字上看并不直观,但是,通过使用七牛云 Pandora 可以将这些数据可视化,更直观看到结果。 从散点图展示,销量的预测值和实际值很接近,几乎完美地服从 y=x 的直线分布,所以能够判断出,这个模型能够帮助我们有效进行分析。 “变量重要性”是我们在分析中所需要关注到的一个重点。针对电商,通常评论数量、价格和产品功效是影响销量的三大关键因素。评论数量越多,销量就越高;价格正好相反,价格越低,销量就越高;针对化妆品这一品类

端到端的OCR版面分析算法

独自空忆成欢 提交于 2020-11-06 23:59:09
端到端的OCR版面分析算法 OCR版面分析痛点 算法设计初衷 数据增广策略 两种端到端的方案 1、基于xgboost的版面分析算法 2、基于seq2seq的版面分析算法 结语 OCR版面分析痛点 当前OCR之后的版面分析工作大家都是规则写的,自己也深受规则之苦,看到ocr输出的一大堆文字和坐标就头皮发麻。最近受了chineseocr作者模板引擎的启发,做了两个端到端的版面分析算法,希望能够帮到各位ocrer。 github 算法设计初衷 最开始的想法是在检测网络上增加类别判断,预测位置的同时加上box类别的判断,但是这样通用性就大大降低了,违背不干预原始的OCR算法的初衷,版面分析的算法应该和OCR算法无缝衔接,所以模型输入应该是OCR输出的box坐标和相应文本。 基于此,延伸出两个思路,一个是忽略box间的位置关系,直接将box坐标和文本编码,送入分类器,即基于xgboost的分类方案。另一个考虑box间的相互关系,将版面分析当成一种翻译任务,即基于seq2seq的翻译方案 数据增广策略 其次标注数据不能太多,如果标注投入过大就有些得不偿失了,算法设计初衷就是希望只标注一些具有代表性的版面,因此增广策略就显得特别重要。增广策略有以下几条: 随机扰动检测框坐标点1~3个像素 随机切分检测框,并随机拆分文本 随机替换 数字、日期等文本内容 随机丢弃3~5检测框 两种端到端的方案 1

BAT机器学习面试153题:SVM xgboost 特征工程你都会么

瘦欲@ 提交于 2020-10-26 22:43:52
前言 本博客曾经在10~13年连续4年整理过各大公司数据结构和算法层面的笔试题、面试题,很快,2014年之后,机器学习大伙,很多公司开始招AI方面的人才,很多同学也会从网上找各种各样的机器学习笔试题、面试题,但和数据结构方面的题不同,AI的题网上极少。 2017年起,我和团队开始整理BAT机器学习面试1000题系列,近百万人开始追踪,目前七月在线官网/APP的题库已聚集AI笔试面试题4000题,今日起,本blog会按照机器学习、深度学习、CV、NLP、推荐系统等各方向精选相关的面试题,供大家找工作中随时查阅、复习。毕竟一般而言,进大厂讲究以下三方面的能力 coding能力,这是最基本的能力,包括数据结构和算法,说白了,coding能力扎实,无论干IT还是干AI,都不会太差,但很多人会忽略这方面的能力,比如AI各模型学的滚瓜烂熟,但面试让十分钟写个快速排序 迟迟动不了手,基本进不了大厂了; 机器学习、深度学习方面的能力,16年起随着AlphaGo的横空出世,深度学习瞬间横扫各个领域(下一篇blog会精选深度学习79题),这里面的重点包括各个模型,比如:决策树、随机森林、xgboost、SVM、特征工程、CNN、RNN、LSTM等等; 根据不同业务场景的技术能力,比如对业务的理解、建模,当然不同方向会用到不同的技术,比如CV、NLP、推荐系统(后续的blog也会精选这几个方向的面试题)

教程丨 一文详尽CatBoost

柔情痞子 提交于 2020-10-26 04:03:00
转载自:Datawhale(ID:Datawhale) 作者:潘华引 本文 13867 字 ,建议阅读 35 分钟 。 本文详尽介绍CatBoost 。 CatBoost CatBoost是俄罗斯的搜索巨头Y andex在2017年开源的机器学习库,也是Boosting族算法的一种,同前面介绍过的XGBoost和LightGBM类似,依然是在GBDT算法框架下的一种改进实现,是一种基于对称决策树(oblivious trees)算法的参数少、支持类别型变量和高准确性的GBDT框架,主要说解决的痛点是高效合理地处理类别型特征,这个从它的名字就可以看得出来,CatBoost是由catgorical和boost组成,另外是处理梯度偏差(Gradient bias)以及预测偏移(Prediction shift)问题,提高算法的准确性和泛化能力。 集成学习 CatBoost主要有以下五个特性: 无需调参即可获得较高的模型质量,采用默认参数就可以获得非常好的结果,减少在调参上面花的时间; 支持类别型变量,无需对非数值型特征进行预处理; 快速、可扩展的GPU版本,可以用基于GPU的梯度提升算法实现来训练你的模型,支持多卡并行; 提高准确性,提出一种全新的梯度提升机制来构建模型以减少过拟合; 快速预测,即便应对延时非常苛刻的任务也能够快速高效部署模型。

科大讯飞-温室温度预测挑战赛个人总结(非Top)

亡梦爱人 提交于 2020-10-23 17:46:07
前言 这算是博主完整参加的第一个数据竞赛,真的收获了好多东西,对数据竞赛有了全方位的认识,也全程目睹了前排大佬神仙打架。这篇文章也算是对这次比赛历程的一个回顾,因为复赛没有怎么做,这里主要还是总结自己初赛时收获的tricks,欢迎小伙伴们一起交流学习!Tips:当然还要非常感谢鱼佬和阿泽两位大神的baseline和思路分享! 这里介绍一下团队的主要成员: 壹磊,北京交通大学运筹学与控制论专业研二在读 yiyang,东华大学应用统计专业研二在读 潜心,上海师范大学计算机技术专业研二在读 文章目录 前言 一、赛题介绍:时间序列问题 二、初赛:允许使用当前值和特征穿越 三、复赛:不允许使用当前值和特征穿越 四、总结 一、赛题介绍:时间序列问题 比赛网址:http://challenge.xfyun.cn/topic/info?type=temperature 因为初赛和复赛规则几乎完全不同,可以说是两个不同的比赛。初赛可以定位为多变量回归问题,复赛则变成了一个基于时间序列预测的结果补全问题。说来惭愧,复赛的一个月的时间我们团队都在忙各种事情,基本上只有一个队友偶尔在做,所以这篇主要是我对初赛特征工程方面的总结。 二、初赛:允许使用当前值和特征穿越 初赛里我们团队成员还没有相识,因此各自单打独斗进行建模,毫无例外都使用了xgboost单模,最终的成绩分别为0.104、0.106和0.117

PyCaret 2.1横空出世-有什么新的内容?

瘦欲@ 提交于 2020-10-23 01:20:58
2020年8月PyCaret2.1 更新版本正式发布。 Py Caret是一个开源的、低代码率的Python机器学习库,它可以使机器学习工作流程自动化,同时,它也是一个端到端的机器学习和模型管理工具,可以缩短机器学习实验周期,将生产力提高10倍。 与其他开源机器学习库相比,Py Caret是低代码库的一个很好的选择,只利用几个单词,便可以用它来替换数百行代码,从而使得实验快速高效。 如果以前没有听到或使用过PyCaret,请参阅先前发布的指南,以便快速入门。 安装PyCaret 安装Py Caret非常容易,只需要几分钟的时间。建议使用虚拟环境来避免与其他库的潜在冲突。请参阅下面的示例代码,以创建Conda环境并在该Conda环境中安装pycaret: #创建conda环境 conda create --name yourenvname python=3.6 #激活环境 conda activate yourenvname #安装pycaret pip install pycaret #创建与conda环境链接的notebook内核 python -m ipykernel install --user --name yourenvname --display-name "display-name" 如果已经安装好了PyCaret,还可以使用pip对它更新: pip install