eta

从线性回归到广义线性回归知识系统总结

蹲街弑〆低调 提交于 2019-11-26 15:48:55
0 引言 在机器学习、数据挖掘中线性回归、Logistic回归(一种非线性回归)是比较基础而且常用回归与分类算法,比如结合L-BFGS优化算法在工业级的大规模推荐系统中被比较多地应用。 如果只了解这两个算法,那就陷入了只见树木不见森林的圈子。本文企图用一篇博客的篇幅让大家系统了解这一块儿的知识。 1 线性回归 1.1问题 给定训练数据集 T = { ( x i , y i ) ∣ x i ∈ R n , y i ∈ R , i ∈ { 1 , 2 , . . , N } } T=\{(x_i,y_i)|x_i \in R^n, y_i \in R,i\in\{1,2,..,N\}\} T = { ( x i ​ , y i ​ ) ∣ x i ​ ∈ R n , y i ​ ∈ R , i ∈ { 1 , 2 , . . , N } } 注意, x i x_i x i ​ 是有n维特征的数据 ( x i 1 , x i 2 , . . . , x i n ) (x_{i1},x_{i2},...,x_{in}) ( x i 1 ​ , x i 2 ​ , . . . , x i n ​ ) , ( x i , y i ) (x_i,y_i) ( x i ​ , y i ​ ) 构成一条数据记录, y i ∈ R y_i \in R y i ​ ∈ R 。 要求构建合适的模型

梯度下降法

生来就可爱ヽ(ⅴ<●) 提交于 2019-11-26 13:55:00
目录 梯度下降法 一、什么是梯度下降? 二、简单线性回归中使用梯度下降法 三、多元线性回归算法中使用梯度下降法 四、梯度下降算法的向量化 五、梯度下降法 1、批量梯度下降法 2、随机梯度下降 3、mini-batch Gradient Descent 4、scikit-learn中封装实现sgd 六、关于梯度的调试 我是尾巴 梯度下降法 梯度下降法,是一种基于搜索的最优化方法,最用是最小化一个损失函数。 一、什么是梯度下降? ​ 机器学习算法都需要最大化或最小化一个函数,这个函数被称为"目标函数",其中我们一般把最小化的一类函数,称为"损失函数"。它能根据预测结果,衡量出模型预测能力的好坏。在求损失函数最小化的过程中使用梯度下降法。 $\frac{dJ(\theta)}{d\theta}$ ​ 在直线方程中,倒数代表斜率,在曲线方程中,倒数代表切线的斜率。倒数代表着参数theta单位变化时,损失函数J相应的的变化。通过上面图中的点可以发现,改点的导数为负值,所以随着参数theta的增加,损失函数J减小,因此导数从某种意义上还可以代表方向,对应着损失函数J增大的方向。 $-\eta\frac{dJ(\theta)}{d\theta}$ ​ 综上,如果最小化一个函数,我们就需要得到导数再取个负数,并且再乘以一个系数,这个系数通常叫做步长或者叫学习率(Learning rate, Lr)

pytorch余弦退火,learning rate 衰减

会有一股神秘感。 提交于 2019-11-26 08:58:32
lr_scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=5,eta_min=4e-08) lr_scheduler.step() 官网: https://pytorch.org/docs/0.3.1/optim.html#torch.optim.lr_scheduler.CosineAnnealingLR Example: scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=5,eta_min=4e-08) for epoch in range(100): scheduler.step() train(…) validate(…) 来源: CSDN 作者: orzchenyuming 链接: https://blog.csdn.net/qq_29936933/article/details/82755940