TPR | 易学教程

【机器学习】基于逻辑回归的癌症预测案例

阅读更多关于【机器学习】基于逻辑回归的癌症预测案例

1 import pandas as pd 2 import numpy as np 3 from sklearn.preprocessing import StandardScaler # 标准化 4 from sklearn.model_selection import train_test_split # 数据集拆分 5 from sklearn.linear_model import LogisticRegression 6 from sklearn.metrics import classification_report 7 from sklearn.metrics import roc_auc_score 8 9 # 加载数据 10 data = pd.read_csv( " ./breast-cancer-wisconsin.data " , header= None) 11 # print("data:\n", data) 12 # 指定其列索引名称 13 columns = [ 14 " Sample code number " , 15 " Clump Thickness " , 16 " Uniformity of Cell Size " , 17 " Uniformity of Cell Shape " , 18 " Marginal Adhesion "

STM32F429驱动SDRAM

阅读更多关于 STM32F429驱动SDRAM

1 FMC 　　STM32F429以外的控制器中，只有FSMC（可变静态存储控制器），不能驱动SDRAM这样的动态存储器，因为驱动SDRAM时需要定时刷新。STM32F429的FMC才支持该功能，且只支持普通的SDRAM，不支持DDR类型的SDRAM。 FMC可以用于驱动SRAM、SDRAM、NOR FLASH以及NAND FLASH类型的存储器。 1.1 通信引脚 SDRAM引脚 FMC引脚说明 CLK FMC_SDCLK 同步时钟信号 CKE FMC_SDCKE1 时钟使能信号 CS FMC_SDNE1 片选信号 CAS FMC_NCAS 列地址选通 RAS FMC_NRAS 行地址选通 WE FMC_SDNWE 写使能 DQM[0:1] FMC_NBL[0:1] 数据输入/输出掩码信号 BA[0:1] FMC_A[14:15] SDRAM芯片内部Bank地址输入 A[0:11] FMC_A[0:11] 地址输入 DQ[0:15] FMC_D[0:15] 数据输入/输出 CKE和CS作用： FMC_SDCKE0，FMC_SDCLK0：FMC映射的SDRAM的存储区域Bank1 FMC_SDCKE1，FMC_SDCLK1：FMC映射的SDRAM的存储区域Bank2 1.2 地址映射 FMC_SDCKE0，FMC_SDCLK0：FMC映射的SDRAM的存储区域Bank1

一文让你彻底理解准确率，精准率，召回率，真正率，假正率，ROC/AUC

阅读更多关于一文让你彻底理解准确率，精准率，召回率，真正率，假正率，ROC/AUC

参考资料： https://zhuanlan.zhihu.com/p/46714763 ROC/AUC作为机器学习的评估指标非常重要，也是面试中经常出现的问题（80%都会问到）。其实，理解它并不是非常难，但是好多朋友都遇到了一个相同的问题，那就是：每次看书的时候都很明白，但回过头就忘了，经常容易将概念弄混。还有的朋友面试之前背下来了，但是一紧张大脑一片空白全忘了，导致回答的很差。我在之前的面试过程中也遇到过类似的问题，我的面试经验是：一般笔试题遇到选择题基本都会考这个率，那个率，或者给一个场景让你选用哪个。面试过程中也被问过很多次，比如什么是AUC/ROC？横轴纵轴都代表什么？有什么优点？为什么要使用它？我记得在我第一次回答的时候，我将准确率，精准率，召回率等概念混淆了，最后一团乱。回去以后我从头到尾梳理了一遍所有相关概念，后面的面试基本都回答地很好。现在想将自己的一些理解分享给大家，希望读完本篇可以彻底记住ROC/AUC的概念。 ▌什么是性能度量？我们都知道机器学习要建模，但是对于模型性能的好坏（即模型的泛化能力），我们并不知道是怎样的，很可能这个模型就是一个差的模型，泛化能力弱，对测试集不能很好的预测或分类。那么如何知道这个模型是好是坏呢？我们必须有个评判的标准。为了了解模型的泛化能力，我们需要用某个指标来衡量，这就是性能度量的意义。有了一个指标，我们就可以对比不同模型了

模型评估指标

阅读更多关于模型评估指标

0. 前言模型的评价指标和评价体系是建模过程中的一个重要环节，针对不同类型的项目和模型，要合理选择不同的评价指标和体系。下面先给出二分类模型中预测值和实际值的混淆矩阵（confusion matrix）和定义，然后介绍几种评价指标。二分类模型的预测值与实际值的结果 TP（True Positive）：模型预测为正例（1），实际为正例（1）的观察对象的数量。 TN（True Negative）：模型预测为负例（0），实际为负例（0）的观察对象的数量。 FP（False Positive）：模型预测为正例（1），实际为负例（0）的观察对象的数量。 FN（False Negative）：模型预测为负例（0），实际为正例（1）的观察对象的数量。 1. 正确率（Accuracy） $$ accuracy = \frac{TP + TN}{TP + FN + TN + FP} $$ 正确率和错误率是相对的两个概念，通常我们把分类错误的样本数占样本总数的比例称为错误率（error rate）。 2. 敏感度（Sensitivity）和特异度（Specificity） $$ Sensitivity = \frac{TP}{TP + FN} $$ $$ Specificity = \frac{TN}{TN + FP} $$ 3. 查全率（Recall）、查准率（Precision）与F1

使用grep搜索多个字符串

阅读更多关于使用grep搜索多个字符串

grep是一个强大的命令行工具，它允许在一个或多个文件中搜索与正则表达式匹配的行，并将匹配的结果写入标准输出。 Grep的多条件搜索模式 grep支持三种正则表达式语法：Basic、Extended和Perl正则表达式。当没有指定正则表达式类型时，grep将搜索模式解释为Basic基本正则表达式。使用多条件搜索模式时，请使用 | 管道符。使用grep的基本正则表达式搜索多个条件，语法如下： ]# grep 'pattern1\|pattern2' file 当使用基本正则表达式时，需要使用 \ 转义符为 | 管道符转义。如果使用扩展模式，可以添加 -E 参数。使用扩展模式，就不需要为 | 管道符添加转义符了。也可以使用 egrep 命令，这个命令和 grep -E 用法一样。 ]# grep 'pattern1|pattern2' file ]# egrep 'pattern1|pattern2' file 使用实例检查操作系统是否开启虚拟化功能，使用Basic基本模式： [root@localhost ~]# grep 'vmx\|svm' /proc/cpuinfo flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse

一文让你彻底理解准确率，精准率，召回率，真正率，假正率，ROC/AUC

阅读更多关于一文让你彻底理解准确率，精准率，召回率，真正率，假正率，ROC/AUC

ROC/AUC 作为机器学习的评估指标非常重要，也是面试中经常出现的问题（80% 都会问到）。其实，理解它并不是非常难，但是好多朋友都遇到了一个相同的问题，那就是：每次看书的时候都很明白，但回过头就忘了，经常容易将概念弄混。还有的朋友面试之前背下来了，但是一紧张大脑一片空白全忘了，导致回答的很差。我在之前的面试过程中也遇到过类似的问题，我的面试经验是：一般笔试题遇到选择题基本都会考这个率，那个率，或者给一个场景让你选用哪个。面试过程中也被问过很多次，比如什么是 AUC/ROC？横轴纵轴都代表什么？有什么优点？为什么要使用它？我记得在我第一次回答的时候，我将准确率，精准率，召回率等概念混淆了，最后一团乱。回去以后我从头到尾梳理了一遍所有相关概念，后面的面试基本都回答地很好。现在想将自己的一些理解分享给大家，希望读完本篇可以彻底记住 ROC/AUC 的概念。 ▌什么是性能度量？我们都知道机器学习要建模，但是对于模型性能的好坏（即模型的泛化能力），我们并不知道是怎样的，很可能这个模型就是一个差的模型，泛化能力弱，对测试集不能很好的预测或分类。那么如何知道这个模型是好是坏呢？我们必须有个评判的标准。**为了了解模型的泛化能力，我们需要用某个指标来衡量，这就是性能度量的意义。**有了一个指标，我们就可以对比不同模型了，从而知道哪个模型相对好，那个模型相对差

Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现

阅读更多关于 Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现

Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现目录 Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现 0x00 摘要 0x01 相关概念 0x02 示例代码 2.1 主要思路 0x03 批处理 3.1 EvalBinaryClassBatchOp 3.2 BaseEvalClassBatchOp 3.2.0 调用关系综述 3.2.1 calLabelPredDetailLocal 3.2.1.1 flatMap 3.2.1.2 reduceGroup 3.2.1.3 mapPartition 3.2.2 ReduceBaseMetrics 3.2.3 SaveDataAsParams 3.2.4 计算混淆矩阵 3.2.4.1 原始矩阵 3.2.4.2 计算标签 3.2.4.3 具体代码 0x04 流处理 4.1 示例 4.1.1 主类 4.1.2 TimeMemSourceStreamOp 4.1.3 Source 4.2 BaseEvalClassStreamOp 4.2.1 PredDetailLabel 4.2.2 AllDataMerge 4.2.3 SaveDataStream 4.2.4 Union 4.2.4.1

信息检索的评价指标(Precision、Recall、F-score、MAP、ROC、AUC)

阅读更多关于信息检索的评价指标(Precision、Recall、F-score、MAP、ROC、AUC)

from： https://blog.csdn.net/universe_ant/article/details/70090026 一：Precision、Recall、F-score 信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate) 和准确率(Precision Rate —— 注意统计学习方法中precision称为精确率，而准确率accuracy是分类正确的样本除以总样本的个数 )，召回率也叫查全率，准确率也叫查准率，概念公式：召回率(Recall) = 系统检索到的相关文件 / 系统所有相关的文件总数。亦即，预测为真实正例 / 所有真实正例样本的个数。准确率(Precision) = 系统检索到的相关文件 / 系统所有检索到的文件总数。亦即，预测为真实正例 / 所有被预测为正例样本的个数。注意：准确率和召回率是相互影响的，理想情况下肯定是做到两者都高，但是一般情况下，准确率高、召回率就低；召回率低、准确率高。当然如果两者都低，那是什么地方出问题了。一般情况，用不同的阈值，统计出一组不同阈值下的精确率和召回率，如下图：如果是做搜索，那就是保证召回率的情况下提升准确率；如果做疾病检测、反垃圾，则是保证准确率的条件下，提升召回率。所以，在两者都要求高的情况下，可以用 F1(或者称为F-score) 来衡量。计算公式如下：F1

机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

阅读更多关于机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/ 在分类任务中，人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上，这样的度量错误掩盖了样例如何被分错的事实。在机器学习中，有一个普遍适用的称为混淆矩阵( confusion matrix )的工具，它可以帮助人们更好地了解分类中的错误。比如有这样一个在房子周围可能发现的动物类型的预测，这个预测的三类问题的混淆矩阵如下表所示：利用混淆矩阵可以充分理解分类中的错误了。如果混淆矩阵中的非对角线元素均为0，就会得到一个近乎完美的分类器。在接下来的讨论中，将以经典的二分类问题为例，对于多分类类比推断。二分类问题在机器学习中是一个很常见的问题，经常会用到。 ROC (Receiver Operating Characteristic) 曲线和 AUC (Area Under the Curve) 值常被用来评价一个二值分类器 ( binary classifier ) 的优劣。之前做医学图像计算机辅助肺结节检测时，在评定模型预测结果时，就用到了ROC和AUC，这里简单介绍一下它们的特点，以及更为深入地，讨论如何作出ROC曲线图和计算AUC值。一、医学图像识别二分类问题针对一个二分类问题，我们将实例分成

Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现

阅读更多关于 Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现

订阅 TPR