xgboost

XGBoostError: value 0 for Parameter num_class should be greater equal to 1

◇◆丶佛笑我妖孽 提交于 2021-01-28 11:53:26
问题 I'm trying to compare two different feature sets for classifying customers into high-value, mid-value, and low-value. This is the code I used: ltv_xgb_model = xgb.XGBClassifier(max_depth=5, learning_rate=0.1,objective='multi:softmax',n_jobs=-1).fit(X_train, y_train) The first dataset has 11 customers in the training data, and 2 customers in the testing data. The classifier is able to achieve 50% precision for one of the feature sets, despite the limited number of customers. The second dataset

XGboost: cannot pass validation data for eval_set in pipeline

一曲冷凌霜 提交于 2021-01-22 12:12:22
问题 I want to implement GridSearchCV for XGboost model in pipeline. I have preprocessor for data, defined above the code, some grid params XGBmodel = XGBRegressor(random_state=0) pipe = Pipeline(steps=[ ('preprocess', preprocessor), ('XGBmodel', XGBmodel) ]) And I want to pass these fit params fit_params = {"XGBmodel__eval_set": [(X_valid, y_valid)], "XGBmodel__early_stopping_rounds": 10, "XGBmodel__verbose": False} I am trying to fit model searchCV = GridSearchCV(pipe, cv=5, param_grid=param

XGboost: cannot pass validation data for eval_set in pipeline

守給你的承諾、 提交于 2021-01-22 12:10:53
问题 I want to implement GridSearchCV for XGboost model in pipeline. I have preprocessor for data, defined above the code, some grid params XGBmodel = XGBRegressor(random_state=0) pipe = Pipeline(steps=[ ('preprocess', preprocessor), ('XGBmodel', XGBmodel) ]) And I want to pass these fit params fit_params = {"XGBmodel__eval_set": [(X_valid, y_valid)], "XGBmodel__early_stopping_rounds": 10, "XGBmodel__verbose": False} I am trying to fit model searchCV = GridSearchCV(pipe, cv=5, param_grid=param

秋招面试经验分享

为君一笑 提交于 2021-01-13 02:19:18
微信公众号: 衣介书生 有任何问题或建议,欢迎在公众号留言。 欢迎关注该公众号。 如果你觉得文章对你有帮助,欢迎赞赏 [1] 我的秋招之路 以下内容主要是我对我参加过的面试的一些个人记录(可能不是那么全面,仅供参考),所有的岗位都是机器学习岗或者深度学习岗。拿到的 offer 从定级上来看基本都是 special offer 或者 super special offer。我会尽最大努力去分享一些专业知识相关的个人笔记供大家参考,如果发现笔记中有任何错误或者不明确的地方也请大家及时指正。 内容目录 美团算法专场(未通过) 美团金融 美团平台 阿里国际事业部(未通过) 作业帮提前批(通过) 京东广告部寻猎计划(通过) 迅雷人工智能研究员提前批(通过) 百度提前批(通过) 一点资讯提前批(通过) 爱奇艺提前批(通过) 搜狐算法专场(通过) 京东金融寻猎计划(通过) 依图(未通过) 宜信提前批(通过) 腾讯桌面安全事业部(流程中断) 猿辅导(通过) 美团算法专场(未通过) 经验教训:简历上的内容都没有准备好,自己做的比赛都没有讲清楚,算法相关的知识也没有做过梳理,面试之前还是要好好梳理一下自己做过的各个项目。毕竟面试时间有限,衡量你能力的硬性指标就是面试官提出的问题你回答得如何。 美团金融 自我介绍 介绍一下商铺定位这个赛题你怎么做的 GBDT的原理 GBDT是如何分裂节点的

决策树是如何选择特征和分裂点?

冷暖自知 提交于 2021-01-09 10:13:48
©PaperWeekly 原创 · 作者|贲忠奇 单位|便利蜂算法工程师 研究方向|推荐算法、反作弊 缘起 在解决回归和分类问题的时候,一般会使用 Random Forest、GBDT、XGBoost、LightGBM 等算法,这类算法因为性能好,被业界广泛采用。突然想到树类型的算法都需要明白一个基本问题,树是如何选择特征和分裂点的?其根本要追溯到决策树的种类,每种是如何划分特征和分裂点,以及如何剪枝的。 决策树分为三类:ID3、C4.5、CART。提出时间却是 1984 年提出 CART,1986年提出的 ID3,1993 年提出的 C4.5。在介绍决策树之前需要了解一些信息论的知识,信息、熵、条件熵、信息增益。决策树中的 ID3 和 C4.5 与信息论息息相关。 信息论基础 信息是杂乱无章数据的一种度量方式。在分类问题中,如果待分类的事物可以划分在多个分类中,那么某个分类 的信息定义为: 其中, 是某个分类的信息; 是选择该分类的概率。 熵是信息的期望,也就是计算所有分类包含信息的期望值: 其中,H(Y) 表示分类数据集的熵。 条件熵是在特征 X 给定条件下,类别 Y 的条件概率分布的熵对特征 X 的数学期望。 其中, 表示在特征 X 下的条件熵; 表示特征下 具体特征值的条件熵; 表示 x 和 y 的联合概率分布。 在划分数据集之前之后信息发生的变化叫做信息增益

华为云·垃圾分类亚军方案分享

跟風遠走 提交于 2021-01-07 23:44:58
导语 结束比赛有几天了,这几天一直在处理前段时间堆积的工作,今天得空对自己的方案进行梳理总结。今年7月多结束魔镜杯后,将之前的内容整理了一下,刚好看到华为垃圾分类比赛,由于我的工作内容还是偏图像,所以就想玩玩,有幸拿了一个亚军。 这次比赛是基于华为云的modelArts平台,免费的gpu硬件环境,全新的结果提交验证方法。感谢组织方华为云,喜欢打比赛的小伙伴也可以多留意该平台,会不定期举办各种数据类竞赛。这次我们队共有三人:谢赋(老虎)、舒欣(up)和文瑞(一休),大家交流分工合作,才能不断奋力前进。这次分享主要是针对决赛阶段,该阶段要求模型的推理时间不能大于100ms,不能使用融合和TTA。故关于模型融合和TTA技巧,本次不会涉及到,后面还会有图像分类的专题分享。 一 解题思路 拿到数据后,我们首先做了数据分析。统计数据样本分布,尺寸分布,图片形态等,基于分析可以做一些针对性的数据预处理算法,对后期的模型训练会有很大的帮助。 选择好的baseline。需要不断的尝试各种现有的网络结构,进行结果对比,挑选出适合该网络的模型结构,然后基于该模型进行不断的调参,调试出性能较好的参数。 做结果验证,分析badcase。将上述模型在验证集上做结果验证,找出错误样本,分析出错原因,然后针对性的调整网络和数据。 基于新数据和模型,再次进行模型调优 二 数据分析(EDA) 原始共有43个类别

金融反欺诈模型----项目实战--机器学习

被刻印的时光 ゝ 提交于 2021-01-04 08:06:23
机器学习:从源数据清洗到特征工程建立谈金融反欺诈模型训练 本文旨在通过一个完整的实战例子,演示从源数据清洗到特征工程建立,再到模型训练,以及模型验证和评估的一个机器学习的完整流程。由于初识机器学习,会比较多的困惑,希望通过借助这个实战的例子,可以帮助大家对机器学习了一个初步的认识。 本文旨在通过一个完整的实战例子,演示从源数据清洗到特征工程建立,再到模型训练,以及模型验证和评估的一个 机器学习 的完整流程。由于初识机器学习,会比较多的困惑,希望通过借助这个实战的例子,可以帮助大家对机器学习了一个初步的认识。 【数据来源】 本文的数据来源于Lending Club网站的公开数据,数据集为自LendingClub平台发放的2016年Q3的总计99122条贷款记录。 Lending Club是美国最大的P2P网贷交易平台,利用网络技术直接连接了个人投资者和个人借贷者,缩短资金流通的细节,绕过传统的大银行等金融机构,使得投资者和借贷者都能得到更多实惠。对于投资者来说,可以获得更好的回报;对于借贷者来说,则可以获得相对较低的贷款利率。 在借贷行业中,投资者向借贷者提供贷款以获取利息。如果借贷者顺利偿还贷款,投资者则获得利息收益。如果借贷者无法偿还贷款,投资者则损失贷款本金。因此,对于投资者来说,需要预测借贷者无法偿还贷款的风险,最大程度地避免投资损失,最大程度地实现投资回报。 【实施步骤】

get probability from xgb.train()

女生的网名这么多〃 提交于 2021-01-04 05:41:47
问题 I am new to Python and Machine learning. I have searched internet regarding my question and tried the solution people have suggested, but still not get it. Would really appreciate it if anyone can help me out. I am working on my first XGboost model. I have tuned the parameters by using xgb.XGBClassifier, and then would like to enforce monotonicity on model variables. Seemingly I have to use xgb.train() to enforce monotonicity as shown in my code below. xgb.train() can do predict(), but NOT

4招教你零基础入门Python

旧时模样 提交于 2020-12-25 17:18:53
随着近几年Python的飞速发展,应用范围逐步趋于广泛,后端开发、前端开发、爬虫、金融量化分析、人工智能、自动化运维、自动化运维、大数据,Python都有涉及。Python相对其他编程语言来讲,语法较简单,就算没有任何编程基础,我们也可以学习和掌握Python编程开发,是新时代的宠儿! 正所谓“人生苦短,我用Python”,而Python的设计哲学就是“优雅”、“明确”、“简单”。 那零基础的小白该如何入门Python了? 前期准备工作 俗话说得好,磨刀不误砍柴共。那么怎么磨刀呢?首先,百度一下Python,对Python有一个大概的了解,然后去官方网站下载一个Python,你最好先下载Python2.7版本,学到最后在去看Python3版本,这符合Python的发展规律。也能让你更加了解Python。如果你安装的过程中遇到问题,可以在百度搜索,敢肯定你会找到答案的。以上说的是在Windows操作系统下安装。 用的是苹果版本,苹果已经内置了Python,不用再安装;用的是Linux系统,Linux中也内置了Python。 (实在是不会安装,或者找不到,可以看文章末尾,有惊喜。) 理解Python的工作原理 python源码不需要编译成二进制代码,它可以直接从源代码运行程序。当我们运行python文件程序的时候,python解释器将源代码转换为字节码

黑科技工具,推荐两款开源自动生成代码神器!

放肆的年华 提交于 2020-12-25 09:20:41
最近两年,在 互联网行业各大技术峰会 上,都能看到关于 工程效能 这个概念,从侧面也反映出了 研发效能 已经逐渐被各企业所重视! 在以前,软件行业还处于野蛮发展时期时,互联网企业比拼的是家底,谁的家底雄厚,谁肯愿意烧钱,谁就能存活下来。而现在比拼的是什么?是研发能力,具体来讲就是从需求转化成软件或者服务的能力,这其中 研发效能的高低对于需求转化速率 起到了至关重要的作用。 在研发工作实践过程中,围绕提升研发效能,能尝试做的事,有很多很多。当然,我们今天分享的重点,并不是讨论关于什么是研发效能,而是,针对在实际实践如何提升研发效能过程中,分享两个非常有意思的工具。 1. 自动生成前端原型:Sketch2Code 我们知道,在做前端开发时,是先由产品人员确定好需求,再借助产品原型工具来实现产品GUI界面的设计,前端拿到原型再去开展具体的前端编码工作。 但是会发现即便市面上,已经有了类似 Axure 和 Modao 等原型工具,但是 画界面 的成本依然很高。这里介绍一种可以将图片GUI设计稿,甚至是 手画GUI设计稿转化成目标平台代码的一键自动化生成方案 。 直接上图: 在上面的例子中,先手绘GUI界面设计,然后通过 Sketch2Code 可以直接转换成目标平台的代码,如果你指定的目标平台是 Web ,那就直接生成 html ,如果你指定的目标平台是 iOS ,那就会生成 XCode