lightgbm

XGBoost 重要参数(调参使用)

醉酒当歌 提交于 2020-08-15 04:51:26
XGBoost 重要参数(调参使用) 数据比赛Kaggle,天池中最常见的就是XGBoost和LightGBM。 模型是在数据比赛中尤为重要的,但是实际上,在比赛的过程中,大部分朋友在模型上花的时间却是相对较少的,大家都倾向于将宝贵的时间留在特征提取与模型融合这些方面。在实战中,我们会先做一个baseline的demo,尽可能快尽可能多的挖掘出模型的潜力,以便后期将精力花在特征和模型融合上。这里就需要一些调参功底。 本文从这两种模型的一共百余参数中选取重要的十余个进行探讨研究。并给大家展示快速轻量级的调参方式。当然,有更高一步要求的朋友,还是得戳 LightGBM 和 XGBoost 这两个官方文档链接。 XGBoost 的重要参数 XGBoost的参数一共分为三类: 通用参数 :宏观函数控制。 Booster参数 :控制每一步的booster(tree/regression)。booster参数一般可以调控模型的效果和计算代价。我们所说的调参,很这是大程度上都是在调整booster参数。 学习目标参数 :控制训练目标的表现。我们对于问题的划分主要体现在学习目标参数上。比如我们要做分类还是回归,做二分类还是多分类,这都是目标参数所提供的。 完整参数请戳官方文档 通用参数 booster :我们有两种参数选择, gbtree 和 gblinear

半小时,将你的Spark SQL模型变为在线服务

限于喜欢 提交于 2020-08-11 09:38:32
SparkSQL在机器学习场景中应用 第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用 SparkSQL在特征变换主要有一下几类 多表场景,用于表之间拼接操作,比如交易信息表去拼接账户表 使用udf进行简单的特征变换,比如对时间戳进行hour函数处理 使用时间窗口和udaf进行时序类特征处理,比如计算一个人最近1天的消费金额总和 SparkSQL到目前为止,解决很好的解决离线模型训练特征变换问题,但是随着AI应用的发展,大家对模型的期望不再只是得出离线调研效果,而是在真实的业务场景发挥出价值,而真实的业务场景是模型应用场景,它需要高性能,需要实时推理,这时候我们就会遇到以下问题 多表数据离线到在线怎么映射,即批量训练过程中输入很多表,到在线环境这些表该以什么形式存在,这点也会影响整个系统架构,做得好能够提升效率,做得不好就会大大增加模型产生业务价值的成本 SQL转换成实时执行成本高,因为在线推理需要高性能,而数据科学家可能做出成千上万个特征,每个特征都人肉转换,会大大增加的工程成本 离线特征和在线特征保持一致困难,手动转换就会导致一致性能,而且往往很难一致 离线效果很棒但是在线效果无法满足业务需求 在具体的反欺诈场景,模型应用要求tp99

BayesSearchCV - lightgbm - early stopping - “ValueError: not enough values to unpack”

大兔子大兔子 提交于 2020-08-11 04:40:30
问题 could you help me with the problem below? Many thanks in advance. Without fit_params=fit_params , the code below works fine, but I want to try early stopping with lgbm. I did try to search for clues but found limited resources but some github issues from lightgbm and BayesSearchCV. lg = lgb.LGBMClassifier(random_state=42, n_jobs=-1, objective='multiclass', n_estimators=5000) fullPipeline = Pipeline(steps=[ ('scaler', StandardScaler()), ('model', lg) ]) param_space = {'model__max_depth': [2,

半小时,利用FEDB将你的Spark SQL模型变为在线服务

穿精又带淫゛_ 提交于 2020-08-09 22:41:02
SparkSQL在机器学习场景中应用 第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用 SparkSQL在特征变换主要有一下几类 1. 多表场景,用于表之间拼接操作,比如交易信息表去拼接账户表 2. 使用udf进行简单的特征变换,比如对时间戳进行hour函数处理 3. 使用时间窗口和udaf进行时序类特征处理,比如计算一个人最近1天的消费金额总和 SparkSQL到目前为止,解决很好的解决离线模型训练特征变换问题,但是随着AI应用的发展,大家对模型的期望不再只是得出离线调研效果,而是在真实的业务场景发挥出价值,而真实的业务场景是模型应用场景,它需要高性能,需要实时推理,这时候我们就会遇到以下问题 1. 多表数据离线到在线怎么映射,即批量训练过程中输入很多表,到在线环境这些表该以什么形式存在,这点也会影响整个系统架构,做得好能够提升效率,做得不好就会大大增加模型产生业务价值的成本 2. SQL转换成实时执行成本高,因为在线推理需要高性能,而数据科学家可能做出成千上万个特征,每个特征都人肉转换,会大大增加的工程成本 3. 离线特征和在线特征保持一致困难,手动转换就会导致一致性能,而且往往很难一致 4. 离线效果很棒但是在线效果无法满足业务需求 在具体的反欺诈场景

机器学习实训课程|31章全免费!完整的自学教程+课件+安装包

扶醉桌前 提交于 2020-08-06 05:32:39
Python玩转机器学习(纯手工代码实现)课程旨在帮助同学们在机器学习领域打下坚实基础。课程注重算法原理讲解与数学公式推导并基于Python语言给出完整的代码实现,从零开始实现每一模块功能(非调用工具包)通过代码实例演示算法工作流程与实现方法。建议同学们在学习过程中先掌握算法原理,基于数学推导公式进行代码复现与实战演练。课程提供全部课程所需PPT,数据,代码。 机器学习|31章全免费!完整的自学教程+课件+安装包 ​ mp.weixin.qq.com 第一章: Python实战关联规则 1-关联规则概述 2支持度与置信度 3-提升度的作用 4-Python实战关联规则 5-数据集制作 6-电影数据集题材关联分析 第二章:爱彼迎数据集分析与建模 1-数据与任务分析 2-提取月份信息进行统计分析 3-房价随星期变化的可视化展示 4-房屋信息指标分析 5-提取房屋常见设施 6-房屋规格热度图分析 7-预处理与建模准备 8-随机森林与LightGBM 9-训练与评估 第三章:基于相似度的酒店推荐系统 1-数据与任务介绍 2-文本词频统计 3-ngram结果可视化展示 4-文本清洗 5-相似度计算 6-得出推荐结果 第四章:商品销售额回归分析 1-数据任务分析 2-特征工程制作 4-特征信息提取 5-标签变换. 6-输入数据制作 7-Xgboost训练模型 8-生成输出结果 第五章

招商银行2020FinTech精英训练营数据赛道比赛心得小结

痞子三分冷 提交于 2020-07-27 04:09:58
文章目录 1.招商银行2020FinTech精英训练营数据赛道比赛简介 一、赛题背景 二、课题研究要求 三、评价指标 AUC的介绍 四、数据说明 2.数据处理部分 1.对用户标签数据的处理 确失数据 然后是对于那些\N和~的乱数据, 好了,现在来处理那些字母型的属性 2.对用户交易数据的处理——按周统计 1.按周统计收入和支出和对应次数 2按周统计各支付方式的次数、金额以及每种支付方式的占比 3.统计每周每个人收支一级分类为1、2、3的次数和金额 3.对用户APP行为的处理 4.数据融合 3.建模调参部分 lightgbm模型 1.招商银行2020FinTech精英训练营数据赛道比赛简介 一、赛题背景 在当今大数据时代,信用评分不仅仅用在办理信用卡、贷款等金融场景,类似的评分产品已经触及到我们生活的方方面面,比如借充电宝免押金、打车先用后付等,甚至在招聘、婚恋场景都有一席之地。 招行作为金融科技的先行者,APP月活用户数上亿,APP服务不仅涵盖资金交易、理财、信贷等金融场景,也延伸到饭票、影票、出行、资讯等非金融场景,可以构建用户的信用评分,基于信用评分为用户提供更优质便捷的服务。 二、课题研究要求 本次大赛为参赛选手提供了两个数据集(训练数据集和评分数据集),包含用户标签数据、过去60天的交易行为数据、过去30天的APP行为数据。希望参赛选手基于训练数据集,通过有效的特征提取

2020“东方国信杯”高校大数据开发大赛最终榜第三名思路分享

独自空忆成欢 提交于 2020-07-24 05:19:34
2020“东方国信杯”高校大数据开发大赛最终榜第三名思路分享 2020“东方国信杯”高校大数据开发大赛刚刚结束,我所在的队伍“三人运动团”最后取得了 3/453 这个还算不错的成绩。感谢两位大佬队友的一路相伴!!下面我将分享一下我们本次比赛的一点思路! 写在前面:大家好!我是练习时长半年的在读本科生数据小白JerryX,各位数据挖掘大佬有什么问题和建议多多指教!!欢迎大家多多点赞,多多评论,多多批评指正!! 目录 2020“东方国信杯”高校大数据开发大赛最终榜第三名思路分享 0 赛题背景 1 特征工程 2 模型策略 3 结论&展望 0 赛题背景 随着信息化浪潮的发展, 我们即将迎来5G时代的浪潮,而中国也是5G通信时代的引领者 。 去年十月, 三大电信运营商共同宣布5G商用服务启动,发布相应的5G套餐 ,席卷全球的5G浪潮正式走进中国的千家万户。 5G使云服务进一步往边缘发展 ,越来越多的边缘算力将促进基于边缘计算的AI应用,更低的网络延时, 也使得终端和云对AI计算的分工更为灵活。无人驾驶、智能家居、工业物联将快速发展。 而 对于通信运营商来说,如何基于 一些用户侧的信息进行用户画像, 再进一步对于潜在的5G使用者进行精准的推销也是非常有帮助的 。 而这个也正是本次东方国信杯的比赛目标。 本次竞赛提供已经转向5G的用户以及尚未转向5G用户的各种数据,要求通过建模识别5G潜在用户

LightGBM: continue training a model

泪湿孤枕 提交于 2020-07-17 11:27:53
问题 I am training a model using cross validation like so: classifier = lgb.Booster( params=params, train_set=lgb_train_set, ) result = lgb.cv( init_model=classifier, params=params, train_set=lgb_train_set, num_boost_round=1000, early_stopping_rounds=20, verbose_eval=50, shuffle=True ) I would like to continue training the model be running the second command multiple times (maybe with a new training set or with different parameters) and it would continue improving the model. However, when I try

Python - LightGBM with GridSearchCV, is running forever

人走茶凉 提交于 2020-07-17 11:15:42
问题 Recently, I am doing multiple experiments to compare Python XgBoost and LightGBM. It seems that this LightGBM is a new algorithm that people say it works better than XGBoost in both speed and accuracy. This is LightGBM GitHub. This is LightGBM python API documents, here you will find python functions you can call. It can be directly called from LightGBM model and also can be called by LightGBM scikit-learn. This is the XGBoost Python API I use. As you can see, it has very similar data