regression | 易学教程

Pandas - Rolling slope calculation

阅读更多关于 Pandas - Rolling slope calculation

问题 How to calculate slope of each columns' rolling(window=60) value, stepped by 5? I'd like to calculate every 5 minutes' value, and I don't need every record's results. Here's sample dataframe and results: df Time A ... N 2016-01-01 00:00 1.2 ... 4.2 2016-01-01 00:01 1.2 ... 4.0 2016-01-01 00:02 1.2 ... 4.5 2016-01-01 00:03 1.5 ... 4.2 2016-01-01 00:04 1.1 ... 4.6 2016-01-01 00:05 1.6 ... 4.1 2016-01-01 00:06 1.7 ... 4.3 2016-01-01 00:07 1.8 ... 4.5 2016-01-01 00:08 1.1 ... 4.1 2016-01-01 00:09

Paper Reading:Wide & Deep Learning for Recommender Systems

阅读更多关于 Paper Reading:Wide & Deep Learning for Recommender Systems

本篇是论文Wide & Deep Learning for Recommender Systems的阅读笔记，这是谷歌的一篇发表在2016的论文。 ABSTRACT 对于解决regression和classification问题，有两类方法，一种是wide的一种是deep的。wide，通常是linear model，输入特征很多，带有能够实现非线性的交叉特征（所以wide。）。deep，主要就是基于神经网络的模型啦。任何事情都有两面性，有利就有弊。wide的模型有什么好处呢？特征之间是如何相互作用的，是一目了然的，也就是可解释性好。缺点呢？特征工程很费劲，而且历史数据中没有的模式是学不到的。deep的模型有什么好处呢？更加general，可以学到一些没见过的特征组合（因为是基于对query和item做embedding的）。缺点呢？过分general了，可能会推荐出一些不相关的东西。这篇论文提出的模型，就是把wide的模型和deep的模型融合到一起，让两种模型相互制约，取两种模型的优点。如何融合？如何联合训练？为什么效果比单独的linear model或者deep model效果好。是这篇论文最值得研究的点。这篇论文还从工程的角度，描述了如何部署，这也是值得学习借鉴的。 INTRODUCTION 这个部分作者进一步解释了abstract中提到的几个点。 One

论文阅读

阅读更多关于论文阅读

本文为阅读论文 Wide & Deep Learning for Recommender Systems 时记下的笔记。背景推荐系统给出的结果需要兼顾相关性和新颖性。推荐的内容和用户特征很匹配，就会推荐大量相关内容，时间一久，用户感到无新鲜感。推荐内容过于泛化，用户的兴趣无法满足。本文提出的算法用于 Google Play 的 APP 推荐系统。线性模型线性模型中各类特征常采用 one-hot 向量表示，比如“国家”属性，可取的值有 200 多个，要表示“国家”就采用一个 200 多个维度的向量，每一个国家占一个维度。类似地，其他属性也这样表示。如此以来，对某个事物的向量表示，就是拼接各个属性对应的 one-hot 向量，整个向量表示是非常稀疏的。国家：[0 0 0 1 0 0 ...] 性别: [1 0] 用户安装过的 APP，可以有多个，采用 bag-of-word 表示，每个维度表示一个 APP 是否安装。 APP: [0 0 1 0 1 0 0 ...] 不同的特征之间可以进行组合，比如将国家和性别属性组合，可以表示如“中国男性”这样的组合属性。特征的组合能够给线性模型增加非线性的特征。但是也会极大地增大特征维度。线性模型的使用的特征向量具有维度高、稀疏的特点。线性模型的形式如下： $$ y = \mathbf{w}^T\mathbf{x} + b $$

机器学习 | 一个基于机器学习的简单小实践：波斯顿房价预测分析

阅读更多关于机器学习 | 一个基于机器学习的简单小实践：波斯顿房价预测分析

本文采用Kaggle上面的Boston HousePrice数据集展示了如何建立机器学习模型的通常过程，包括以下几个阶段：数据获取数据清洗探索性数据分析特征工程模型建立模型集成标签变量（房价）采取了对数转换，使其符合正太分布，最后从12个备选模型中选出预测效果最好的6个模型Lasso，Ridge，SVR，KernelRidge，ElasticNet，BayesianRidge分别进行加权平均集成和Stacking集成，最后发现Stacking集成效果更好，创新之处在于将Stacking集成后的数据加入原训练集中再次训练Stacking集成模型，使得模型性能再次得到改善，作为最后的预测模型，预测结果提交kaggle上后表现不错。另外受限于训练时间，超参数搜索空间小，有待改善。数据获取 Kaggle官网提供了大量的机器学习数据集，本文从其中选择了Boston HousePrice数据集，下载地址为https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data，下载后的数据集包括train.csv，test.csv，data_description.txt，sample_submission.csv四个文件，顾名思义train.csv为训练数据集，用于训练模型，test

MariaDB Server MiniFest Wed 9 Dec 2020

阅读更多关于 MariaDB Server MiniFest Wed 9 Dec 2020

New MariaDB releases come with regular intervals. Releasing a new version is a balance between new functionality and bugfixes on one side, and stability on the other. How do we get optimum quality for the releases? And what exactly is quality, from the point of view of DBAs and developers that use MariaDB Server? That’s the setting of our MariaDB Server MiniFest in two weeks. New MariaDB Releases: The DBA & Developer Experience This MiniFest is called “mini” for three key reasons: 1.It has just one topic 2.It is much shorter, less than half a day 3.It happens just in one time zone But it still

数据揭秘：低学历成功逆袭概率有多少？感谢父母送我读书！

阅读更多关于数据揭秘：低学历成功逆袭概率有多少？感谢父母送我读书！

导读：本文来自于知乎问题“低学历是否比高学历更加会赚钱？”被赞最高的答案，答主就读于伦敦政治经济学院公共健康政策与健康经济学专业，利用国内外各类统计数据驳斥“读书无用论”。 “读书无用什么的，我们自谦的时候说说而已，你们别当真了。” “受教育程度高的人，就是更有钱，就是更健康，就是更道德。” “高考就算是考电子竞技，仍然还会是目前上名校的这些人上名校。” 写在最前面的话：毋庸置疑这篇文章触痛了某些人，毕竟很多人想要快乐地生活下去，靠的是创造与重复假象不断地麻痹自己，这也正是绝大多数人传播读书无用论的根本动机。我本无意撕下他们的眼罩，无奈国内反智主义盛行的大环境侵犯到了每一个受过高等教育的人的切身利益（例子太多了，转基因食品算一个吧），总得有人站出来发声。希望每一个读完这篇文章的人，下一次能够理直气壮地对高唱反智主义的LOSER们说： “读书无用什么的，我们自谦的时候说说而已，你们别当真了。” 这种时候熬什么心灵鸡汤，直接干货甩一脸不就好了？！ ▲Table 1: Mean Earnings by Highest Degree Earned, $: 2009 (SAUS, table 232) ▲Table 2: Unemployment Rates by Educational Attainment, % (BLS) 图一是美国社会收入和最高学历的关系

mgcv: How to use 'exclude' argument in predict.gam?

阅读更多关于 mgcv: How to use 'exclude' argument in predict.gam?

问题 I have a model structured as follows, and I would like to extract the predicted values while ignoring the random effect. As specified in ?predict.gam and here, I am using the exclude argument, but I am getting an error. Where is my mistake? dt <- data.frame(n1 = runif(500, min=0, max=1), n2 = rep(1:10,50), n3 = runif(500, min=0, max=2), n4 = runif(500, min=0, max=2), c1 = factor(rep(c("X","Y"),250)), c2 = factor(rep(c("a", "b", "c", "d", "e"), 100))) mod = gam(n1 ~ s(n2, n3, n4, by=c1) + s(c2

mgcv: How to use 'exclude' argument in predict.gam?

阅读更多关于 mgcv: How to use 'exclude' argument in predict.gam?

特征工程之特征选择

阅读更多关于特征工程之特征选择

过滤法：filter 方差筛选：方差越大的特征，那么我们可以认为它是比较有用的。如果方差较小，比如小于1，那么这个特征可能对我们的算法作用没有那么大。最极端的，如果某个特征方差为0，即所有的样本该特征的取值都是一样的，那么它对我们的模型训练没有任何作用，可以直接舍弃。在实际应用中，我们会指定一个方差的阈值，当方差小于这个阈值的特征会被我们筛掉。 sklearn中的VarianceThreshold类可以很方便的完成这个工作相关系数：这个主要用于输出连续值的监督学习算法中。我们分别计算所有训练集中各个特征与输出值之间的相关系数，设定一个阈值，选择相关系数较大的部分特征。假设检验，比如卡方检验：卡方检验可以检验某个特征分布和输出值分布之间的相关性。在sklearn中，可以使用chi2这个类来做卡方检验得到所有特征的卡方值与显著性水平P临界值，我们可以给定卡方值阈值，选择卡方值较大的部分特征。　　除了卡方检验，我们还可以使用F检验和t检验，它们都是使用假设检验的方法，只是使用的统计分布不是卡方分布，而是F分布和t分布而已。在sklearn中，有F检验的函数f_classif和f_regression，分别在分类和回归特征选择时使用。　　4. 互信息：互信息值越大，说明该特征和输出值之间的相关性越大，越需要保留。在sklearn中，可以使用mutual_info

.NET数据挖掘与机器学习开源框架

阅读更多关于 .NET数据挖掘与机器学习开源框架

1. 数据挖掘与机器学习开源框架 1.1 框架概述 1.1.1 AForge.NET 　　 AForge.NET 是一个专门为开发者和研究者基于C#框架设计的，他包括计算机视觉与人工智能，图像处理，神经网络，遗传算法，机器学习，模糊系统，机器人控制等领域。这个框架由一系列的类库组成。主要包括有： AForge.Imaging —— 一些日常的图像处理和过滤器 AForge.Vision —— 计算机视觉应用类库 AForge.Neuro —— 神经网络计算库AForge.Genetic -进化算法编程库 AForge.MachineLearning —— 机器学习类库 AForge.Robotics —— 提供一些机器学习的工具类库 AForge.Video —— 一系列的视频处理类库 AForge.Fuzzy —— 模糊推理系统类库 AForge.Controls—— 图像，三维，图表显示控件来自： http://baike.haosou.com/doc/1786119-1888850.html 官方网站： http://www.aforgenet.com/ 1.1.2 Accord.NET Framework 　　 Accord.NET Framework是在AForge.NET基础上封装和进一步开发来的。功能也很强大，因为AForge.NET更注重与一些底层和广度

订阅 regression