xgboost

阿里技术官亲荐“998页的应届生面试手册”看完才发现,原来求职也没那么难!

此生再无相见时 提交于 2020-12-22 16:20:36
一晃接近三个月过去了,秋招也到了尾声,之前一直忙于写毕业论文,现在在这里想总结一些自己求职互联网大厂算法岗的面经和心得,希望帮助后来的学弟学妹们收获自己心仪的offer。 今年的算法岗求职较往年竞争也更加激烈,可以预见以后进大厂的算法岗会变得越来越难 ,难度提高了一倍,加之疫情的影响,我认识的很多手握顶会的本科学弟们以及海外的同学们也加入到了找工作的大军中,因此今年算法岗的竞争堪称史上巅峰,真的是八仙过海,各显神通。不过,找工作不仅需要实力,运气和方法也缺一不可,下面我就谈谈我自己的心路历程。 背景 本人Top2硕士在读,计算机科班,在整个秋招的过程中参加了8场面试,阿里、百度、京东、美团、拼多多、快手、小红书、平安。最后侥幸获得了7家公司的offer,其中6家ssp,1家sp,薪资待遇 40+W-70+W 不等。 可能很多人会觉得我应该有多家大厂的实习,但其实我并没有,由于父母的工作受到了疫情的影响,导致我今年从疫情开始到7月初一直都在家里帮父母的忙,看到周围的同学都拿到了大厂实习的offer,当时的我只感觉自己的秋招应该和互联网无缘了。每个人的秋招只有一次,如果不奋力一搏,又怎会知道最终的结果。抱着这个念头,我在7月初就赶紧放下了父母的工作,全身心的备战秋招。在这里,我就要讲一讲我的方法了, 大部分互联网公司算法岗基本是三轮技术面+一轮HR面,技术面每轮的面试时间大致是一个小时

XGBoost with GPU support on Google Colab

我们两清 提交于 2020-12-13 03:04:50
问题 Is there a way to import the XGBoost with GPU support on Google Collab? At last, I tried yesterday and the loaded XGBoost does not have the GPU support. You could reach the notebook from this link: https://colab.research.google.com/drive/1YxCw7eVHZDrbVBFqSN0-t1mZ-fBJJI7h And the error is: XGBoostError: b'[19:15:28] src/learner.cc:151: XGBoost version not compiled with GPU support.\n\nStack trace returned 10 entries:\n[bt] (0) /usr/local/lib/python3.6/dist-packages/xgboost/./lib/libxgboost.so(

Windows Error using XGBoost with python

大兔子大兔子 提交于 2020-12-12 05:12:18
问题 So I'm tackling this machine-learning problem (from a previous Kaggle competition for practice: https://www.kaggle.com/c/nyc-taxi-trip-duration) and I'm trying to use XGBoost but getting an error which I have no clue how to tackle. I searched on google and stack overflow but couldn't find anyone with a similar problem. I'm using python 2.7 with the Spyder IDE through Anaconda and I'm on Windows 10. I did have some trouble installing the xgboost package so I won't completely erase the idea

机器学习 | 基于机器学习的供应链管理之销售库存优化分析(实操分享)

可紊 提交于 2020-12-11 08:22:06
本次是用机器学习做出未来一定时期内的销售量预测,从而辅助指导销售库存计划的决策分析,以达到合理配置库存,减少资源成本浪费的目的。实操内容有点多,虽然我已经尽量删减了。有兴趣的朋友可以关注 + 收藏,后面慢慢看哟。如果觉得内容还行,请多多鼓励;如果有啥想法,评论留言 or私信。那么我们开始说正事了~ 一、数据准备阶段 数据集描述 用于技术验证的数据集来自kaggle上的医药销售预测项目Rossmann Stores Clustering and Forecast,整个数据集包含三张表 : 训练集 、 测试集 、 经销商信息表 。 测试集只比训练集少销售额Sales和Customers这两个字段,其它字段完全相同,其中训练集和测试集分别有1017209和41088条,训练集和测试集前五条数据如下。 测试集包含未来六周的促销等状况,要求预测指定经销商的销售额或则顾客总数。 经销商信息数据集store.csv有1115条数据,也就是1115家经销商,10个字段 。 其中Store字段唯一代表一家经销商,可以将train.csv和test.csv分别与store.csv通过字段Store关联起来。 数据预处理 1. 首先从日期字段Date中提取出年月日以及该日期在所在年的第几周,并将它们作为新的字段,方便之后对数据按时间进行聚合处理。 2. 对三张表中的分类变量进行编码转换

性能优化:线程资源回收

一世执手 提交于 2020-12-09 19:25:29
本文来自: PerfMa技术社区 PerfMa(笨马网络)官网 一、问题 模型服务平台的排序请求出现较多超时情况,且不定时伴随空指针异常。 二、问题发生前后的改动 召回引擎扩大了召回量,导致排序请求的item数量增加了。 三、出问题的模型 基于XGBoost预测的全排序模型。 四、项目介绍 web-rec-model:模型服务平台。用于管理排序模型:XGBoost、TensorFlow、pmml....召回模型:item2item,key2item,vec2item....等模型的上下线、测试模型一致性、模型服务等。 五、一次排序请求流程 1、如下图所示,一次排序请求流程包含:特征获取、向量获取、数据处理及预测。以上提到的三个步骤均采用多线程并行处理,均以子任务形式执行。每个阶段中间夹杂这数据处理的流程,由主线程进行处理,且每个阶段的执行任务均为超时返回,主线程等待子线程任务时,也采用超时等待的策略。(同事实现的一个树形任务执行,超时等待的线程框架) 2、特征数据闭环:该步骤为异步执行,将排序计算使用到的特征及分数,模型版本等信息记录。后续作为模型的训练样本,达到特征闭环。 3、一次排序请求中, 特征获取及向量获取 为网络IO(IO密集型任务),超时可直接响应中断,线程可快速返回。 数据处理及模型 为计算步骤(CPU密集型任务)。 4、当前请求耗时情况

机器学习 | 基于机器学习的银行电话营销客户购买可能性预测分析

三世轮回 提交于 2020-12-08 10:05:05
数据集: uci下载的某家银行电话营销与是否购买定期存储的数据 。 模拟目标: 知道客户数据 , 预测购买理财产品概率 我认为将电话营销的数据消除只保留基本属性可以模拟实际银行能够获取的数据 。 电话营销数据代表一些对用户决定由影响但是获取难度较大的数据 。 比如说,买房 、 买车 、 小孩上学,这些数据银行不能立刻获得,或者获取成本较高。这里不使用这些数据参与预测。虽然预测准确度会降低,但是更符合实际情况。 然后定期存储是一种产品,可以当做一种理财,如果能对一种进行预测行进实现和验证,那么可以扩展到多种产品的预测 数据情况 , 见下 表 Age 年龄 Job 工作 Marital 婚姻情况 Education 教育情况 Default 违约情况 - no 无违约 yes 有违约 Balance 账户余额 House 是否买房子 - no 无房产 yes 有房子 Loan 贷款 - no 无贷款 yes 有贷款 数据处理 数据清洗常规套路 ( 空值检查,去重,去异常值 ) 由于数据集较好,基本不需要处理,但实现数据很有可能需要清洗,比如说,年龄缺失不能简单补0。 balance处理的尝试 1.balance的分布在较大值较少,需要处理 2.balance不处理 对数据one-hot encoding,对yes,no等2分类用0,1替换 处理之后数据为 使用lightgbm建模

手推公式+项目实操复现!《机器学习》完整详解

China☆狼群 提交于 2020-12-08 06:31:28
相信很多朋友对机器学习算法都有所了解,有尝试学习并利用机器学习算法以及工具做一些AI产品! 但是仅仅停留在“调包”的阶段。 想去深入理解一些算法的核心内涵却被 XGBoost | GBDT 等算法劝退了! 为了满足全民学习AI的需求,给大家推荐一款轻松入门 机器学习算法课程 , 涵盖 17大经典机器学习算法模型,21+案例练习,8大项目实战 。 今日开课,限 100个 体验名额 01 十七大经典算法模型 | K-NN最近邻 | 线性回归 | 逻辑回归 | | 凸优化 | 朴素贝叶斯 | 支持向量机 | | 决策树 | 随机森林 | GBDT | | XGBoost | 矩阵分解 | K-Means | | GMM | 主题模型 | EM | 聚类 | PCA | 02 21个项目案例讲解 01、回归分析身高预测 02、 利用KNN筛选简历 03、 二手车价格预估 04、 量化投资之股票价格预测 05、 预测广告点击率 06、 利用L1正则模拟神经科学中的稀疏性 07、 垃圾邮件分类 08、 员工离职率预测 09、 基于随机森林的疾病分析 10、 利用GBDT解决搜索中的排序问题 11、 人脸识别 12、 基于聚类的消费群分类 13、 内容推荐算法的电影推荐引擎 14、 基于协同过滤算法的音乐推荐引擎 15、 搭建OCR识别引擎 16、 利用聚类算法压缩图片 17、

Sklearn pass fit() parameters to xgboost in pipeline

本小妞迷上赌 提交于 2020-12-02 07:29:48
问题 Similar to How to pass a parameter to only one part of a pipeline object in scikit learn? I want to pass parameters to only one part of a pipeline. Usually, it should work fine like: estimator = XGBClassifier() pipeline = Pipeline([ ('clf', estimator) ]) and executed like pipeline.fit(X_train, y_train, clf__early_stopping_rounds=20) but it fails with: /usr/local/lib/python3.5/site-packages/sklearn/pipeline.py in fit(self, X, y, **fit_params) 114 """ 115 Xt, yt, fit_params = self._pre

Sklearn pass fit() parameters to xgboost in pipeline

旧巷老猫 提交于 2020-12-02 07:29:24
问题 Similar to How to pass a parameter to only one part of a pipeline object in scikit learn? I want to pass parameters to only one part of a pipeline. Usually, it should work fine like: estimator = XGBClassifier() pipeline = Pipeline([ ('clf', estimator) ]) and executed like pipeline.fit(X_train, y_train, clf__early_stopping_rounds=20) but it fails with: /usr/local/lib/python3.5/site-packages/sklearn/pipeline.py in fit(self, X, y, **fit_params) 114 """ 115 Xt, yt, fit_params = self._pre

xgboost : The meaning of the base_score parameter

ⅰ亾dé卋堺 提交于 2020-12-01 02:36:13
问题 In the documentation of xgboost I read: base_score [default=0.5] : the initial prediction score of all instances, global bias What is the meaning of this phrase? Is the base score the prior probability of the Event of Interest in the Dataset? I.e. in a dataset of 1,000 observations with 300 Positives and 700 Negatives the base score would be 0.3? If not, what it would be? Your advice will be appreciated. 回答1: I think your understanding is correct, in your example the base score could be set