查全率 | 易学教程

Task3：逻辑回归

阅读更多关于 Task3：逻辑回归

逻辑回归 1.逻辑回归与线性回归的联系与区别 2.逻辑回归的原理 3.逻辑回归损失函数推导及优化 4.正则化与模型评估指标 5.逻辑回归的优缺点 6.样本不均匀问题解决办法 7.Sklean参数 8.代码实现 1.逻辑回归与线性回归的联系与区别线性回归解决的是连续变量的问题，但离散性变量，在分类任务中使用线性回归，效果不理想。` 例子：图显示了是否购买玩具和年龄之间的关系，可以用线性回归拟合成一条直线，将购买标注为1，不购买标注为0，拟合后取当0.5值为阈值来划分类别。 y ^ = { 1 , f ( x ) > 0.5 , 0 , f ( x ) < 0.5 \hat y =\begin{cases} 1, f(x)>0.5, \\\\0, f(x)<0.5\end{cases} y ^ = ⎩ ⎪ ⎨ ⎪ ⎧ 1 , f ( x ) > 0 . 5 , 0 , f ( x ) < 0 . 5 可以看到，在途中，年龄的区分点约为19岁。但当数据点不平衡时，很容易影响到阈值，见以下图：可以看到，0值样本的年龄段往高年龄端偏移后，真实的阈值依然是19岁左右，但拟合出来的曲线的阈值往后边偏移了。可以想想，负样本越多，年龄大的人越多，偏移越严重。实际情况是60岁的老人和80岁的老人都不会购买玩具，增加几位80岁的老人，并不会影响20岁以下人群购买玩具的概率

【机器学习】（二）模型评估与选择

阅读更多关于【机器学习】（二）模型评估与选择

误差与过拟合误差假设m个样本中有a个样本分类错误错误率（error rate）：分类错误的样本数占样本总数的比例，E=a/m 精度（accuracy）：分类正确的样本数占样本总数的比例，1-a/m 精度=1-错误率误差（error）：学习器的实际预测输出与样本的真实输出之间的差异学习器在训练集上的误差称为训练误差（training error）/ 经验误差（empirical error）学习器在新样本上的误差称为泛化误差（generalization error）机器学习的目标是得到泛化误差小的学习器，但是实际能做的是努力使经验误差最小化过拟合与欠拟合当学习器把训练样本学得太好的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。这种现象在机器学习中称为过拟合（overfitting）。与过拟合相对的是欠拟合（underfitting），这是指对训练样本的一般性质尚未学好。过拟合是机器学习中的关键障碍评估方法通常，通过实验测试来对学习器的泛化误差进行评估。为此，需使用一个测试集（testing set）来测试学习器对新样本的判别能力，然后以测试集上的测试误差（testing error）作为泛化误差的近似。通常我们假设测试样本也是从样本真实分布中独立同分布采样而得

一文让你彻底理解准确率，精准率，召回率，真正率，假正率，ROC/AUC

阅读更多关于一文让你彻底理解准确率，精准率，召回率，真正率，假正率，ROC/AUC

参考资料： https://zhuanlan.zhihu.com/p/46714763 ROC/AUC作为机器学习的评估指标非常重要，也是面试中经常出现的问题（80%都会问到）。其实，理解它并不是非常难，但是好多朋友都遇到了一个相同的问题，那就是：每次看书的时候都很明白，但回过头就忘了，经常容易将概念弄混。还有的朋友面试之前背下来了，但是一紧张大脑一片空白全忘了，导致回答的很差。我在之前的面试过程中也遇到过类似的问题，我的面试经验是：一般笔试题遇到选择题基本都会考这个率，那个率，或者给一个场景让你选用哪个。面试过程中也被问过很多次，比如什么是AUC/ROC？横轴纵轴都代表什么？有什么优点？为什么要使用它？我记得在我第一次回答的时候，我将准确率，精准率，召回率等概念混淆了，最后一团乱。回去以后我从头到尾梳理了一遍所有相关概念，后面的面试基本都回答地很好。现在想将自己的一些理解分享给大家，希望读完本篇可以彻底记住ROC/AUC的概念。 ▌什么是性能度量？我们都知道机器学习要建模，但是对于模型性能的好坏（即模型的泛化能力），我们并不知道是怎样的，很可能这个模型就是一个差的模型，泛化能力弱，对测试集不能很好的预测或分类。那么如何知道这个模型是好是坏呢？我们必须有个评判的标准。为了了解模型的泛化能力，我们需要用某个指标来衡量，这就是性能度量的意义。有了一个指标，我们就可以对比不同模型了

查全率（Recall），查准率（Precision），灵敏性（Sensitivity），特异性（Specificity），F1，PR曲线，ROC，AUC的应用场景

阅读更多关于查全率（Recall），查准率（Precision），灵敏性（Sensitivity），特异性（Specificity），F1，PR曲线，ROC，AUC的应用场景

之前介绍了这么多分类模型的性能评价指标（《分类模型的性能评价指标（Classification Model Performance Evaluation Metric）》），那么到底应该选择哪些指标来评估自己的模型呢？答案是应根据应用场景进行选择。查全率（Recall）：recall是相对真实的情况而言的：假设测试集里面有100个正类，如果模型预测出其中40个是正类，那模型的recall就是40%。查全率也称为召回率，等价于灵敏性（Sensitivity）和真正率（True Positive Rate，TPR）。查全率的应用场景：需要尽可能地把所需的类别检测出来，而不在乎结果是否准确。比如对于地震的预测，我们希望每次地震都能被预测出来，这个时候可以牺牲precision。假如一共发生了10次地震，我们情愿发出1000次警报，这样能把这10次地震都涵盖进去（此时recall是100%，precision是1%），也不要发出100次警报，其中有8次地震给预测到了，但漏了2次（此时recall是80%，precision是8%）。查准率（Precision）：precision是相对模型的预测结果而言的：假设模型一共预测出了100个正类，其中80个是正确的，那么precision就是80%。查准率的应用场景：需要尽可能地把所需的类别检测准确

机器学习周志华――学习器性能度量

阅读更多关于机器学习周志华――学习器性能度量

衡量模型泛化能力的评价标准，就是性能度量（performance measure）。（1）错误率与精度（2）查准率、查全率与F1 基于样例真实类别，可将学习器预测类别的组合划分为真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative）, TP 、 FP 、 TN 、 FN 分别表示其对应的样例数，则有 TP+FP+TN+FN =样例总数。查准率 P 与查全率 R 分别定义为： P = TP /（ TP+FP ）=>正例结果中真正例数/正例结果总数 R = TP /（ TP+FN ）=>正例结果中真正例数/结果中所有真正例数查准率高时，查全率往往偏低，查全率高时，查准率往往偏低（例如选西瓜例子，希望查全率高则应尽可能将所有瓜都选上，但这样查准率必然更低，若希望查准率高则应尽可能挑最有把握的瓜，但这样必然会漏掉一些好瓜，使查全率低）。通常只有在一些简单任务中，才可能使查全率和查准率都很高。通常按学习器预测结果为正例可能的大小对样例排序，即排在前面的是学习器认变“最可能”是正例的样本，排在最后的则是学习器认为“最不可能”的正例样本。从上到下逐个把样本作为正例进行预测，每次均计算出当前的查全率、查准率，以查准率为纵轴、查全率为横轴作图，得到查准率-查全率曲线P-R曲线，简称P-R图。

读周志华《机器学习》个人读书笔记

阅读更多关于读周志华《机器学习》个人读书笔记

机器学习所研究的内容：是关于在计算机上通过数据产生“模型”的算法，即为“学习算法”（learning algorithm）。 “模型”指的就是学习所得的结果。从数据中学得模型的过程称为“学习”或“训练”。预测的若为离散值，此类学习任务称为“分类”（classification）若为连续值，此类学习任务称之为“回归”（regression）。涉及到两个类别的“二分类”（binary classification）任务，其中一个为“正类”（posive class）,另一个为“反类”（negative class）。根据训练数据是否拥有标记信息，学习任务分为：“监督学习”（supervise learning）和“无监督学习”（unsupervised learning）。分类回归是前者的代表，聚类（clustering）是后者的代表。学得的模型适用于新样本的能力，称为“泛化”（generalization）能力。归纳（induction）和演绎（deduction）。归纳是从特殊到一般的泛化过程，即为从具体的事实中总结出一般的规律。演绎是从一般到特殊的“特化”（specialization）过程，即从基础原理推演出具体状况。归纳学习有广义和狭义之分，广义的归纳学习相当于从样例中学习，而狭义的归纳学习则要求从训练数据中学得概念，又称为“概念学习”或“概念形成”。

（转）机器学习常用性能度量中的Accuracy、Precision、Recall、ROC、F score等都是些什么东西？

阅读更多关于（转）机器学习常用性能度量中的Accuracy、Precision、Recall、ROC、F score等都是些什么东西？

https://www.cnblogs.com/anai/p/11576831.html 我们以图片分类来举例，当然换成文本、语音等也是一样的。 Positive 正样本。比如你要识别一组图片是不是猫，那么你预测某张图片是猫，这张图片就被预测成了正样本。 Negative 负样本。比如你要识别一组图片是不是猫，那么你预测某张图片不是猫，这张图片就被预测成了负样本。 TP 一组预测为正样本的图片中，真的是正样本的图片数。 TN: 一组预测为负样本的图片中，真的是负样本的图片数。 FP: 一组预测为正样本的图片中，其实是负样本的图片数。又称“误检” FN: 一组预测为负样本的图片中，其实是正样本的图片数。又称“漏检”。精度（accuracy）分类正确的样本数占总样本数的比例。 acc = （TP+TN）/ 总样本数查准率/准确率 precision 一组预测为正样本的图片中，真的是正样本的图片所占的比例。为什么有了Accuracy还要提出Precision的概念呢？因为前者在测试样本集的正负样本数不均衡的时候，比如正样本数为1，负样本数为99时，模型只要每次都将给定的样本预测成负样本，那么Accuracy = (0+99)/100 = 0.99，精度依然可以很高，但这毫无意义。但是同样的样本集，同样的方法运用到查准率公式上，就不可能得到一个很高的值了。查全率/召回率

机器学习常用性能度量中的Accuracy、Precision、Recall、ROC、F score等都是些什么东西？

阅读更多关于机器学习常用性能度量中的Accuracy、Precision、Recall、ROC、F score等都是些什么东西？

一篇文章就搞懂啦，这个必须收藏！我们以图片分类来举例，当然换成文本、语音等也是一样的。 Positive 正样本。比如你要识别一组图片是不是猫，那么你预测某张图片是猫，这张图片就被预测成了正样本。 Negative 负样本。比如你要识别一组图片是不是猫，那么你预测某张图片不是猫，这张图片就被预测成了负样本。 TP 一组预测为正样本的图片中，真的是正样本的图片数。 TN: 一组预测为负样本的图片中，真的是负样本的图片数。 FP: 一组预测为正样本的图片中，其实是负样本的图片数。又称“误检” FN: 一组预测为负样本的图片中，其实是正样本的图片数。又称“漏检”。精度（accuracy）分类正确的样本数占总样本数的比例。 acc = （TP+TN）/ 总样本数查准率/准确率 precision 一组预测为正样本的图片中，真的是正样本的图片所占的比例。为什么有了Accuracy还要提出Precision的概念呢？因为前者在测试样本集的正负样本数不均衡的时候，比如正样本数为1，负样本数为99时，模型只要每次都将给定的样本预测成负样本，那么Accuracy = (0+99)/100 = 0.99，精度依然可以很高，但这毫无意义。但是同样的样本集，同样的方法运用到查准率公式上，就不可能得到一个很高的值了。查全率/召回率 recall 所有真的是正样本的图片中

混淆矩阵

阅读更多关于混淆矩阵

P-R图直观的显示出学习器在样本总体上的查全率和查准率，在进行比较时，若一个学习器的P-R曲线被另一个学习器的曲线完全包住则后者的性能优于前者，比如A比C好。如果发生交叉现象则可以用F1度量：　　　　　　　　$F1=\frac{2 * P * R}{P + R}$ 一般形式（表达出对查准率/查全率的不同偏好）：　　　　　　　　$F_{\beta}=\frac{(1 + \beta^{2}) * P * R}{(\beta^{2} * P) + R}$ $F_{\beta}$是加权调和平均：　　　　　　　　$\frac{1}{F_{\beta}}=\frac{1}{1 + \beta^{2}} (\frac{1}{P} + \frac{\beta^{2}}{R})$ 其中$\beta>0$度量了查全率对查准率的相对重要程度，$\beta=1$退化为标准的F1，$\beta>1$时查全率有更大影响，$\beta<1$查准率有更大的影响。来源： https://www.cnblogs.com/xcxy-boke/p/11408713.html

订阅查全率