R语言

ROC曲线基于R语言-(pROC包)

為{幸葍}努か 提交于 2020-01-24 19:31:58
R语言ROC曲线 ROC曲线简介: 很多的模型在进行分类预测时,会产生一个实际值或者概率值,然后我们将这个预测值与一个用于分类的阈值进行比较,将结果分成正类和反类。一般我们可以通过任务需求的不同来采用不同的截断点。在绘制ROC曲线前,我们根据学习期的预测结果对样例进行排序,按照该顺序计算出横纵坐标,纵轴是“真正例率”(TRP),横轴是“假正例率”(FPR),图像与x=1,y=0的直线围成的面积为AUC值。 R语言绘制ROC曲线: 调用“pROC包”中的roc()函数: library ( "pROC" ) data ( aSAH ) 在aSAH数据集中s100b是对outcome的预测实值 > head ( aSAH ) gos6 outcome gender age wfns s100b ndka 29 5 Good Female 42 1 0.13 3.01 30 5 Good Female 37 1 0.14 8.54 31 5 Good Female 42 1 0.10 8.09 32 5 Good Female 27 1 0.04 10.42 33 1 Poor Female 42 3 0.13 17.40 34 1 Poor Male 48 2 0.10 12.75 使用roc函数的格式大致如下,ci=T代表计算95%的置信区间,auc=T则会返回auc值 roc (

R语言hist绘图函数

[亡魂溺海] 提交于 2020-01-22 20:53:16
hist 用于绘制直方图,下面介绍每个参数的作用; 1)x: 用于绘制直方图的数据,该参数的值为一个向量 代码示例: data <- c(rep(1, 10), rep(2, 5), rep(3, 6)) hist(data) 效果图如下: 从图中可以看出,横坐标为不同的区间,纵坐标为落入该区间内的频数; 2) break : 该参数的指定格式有很多种 第一种: 指定一个向量,给出不同的断点 代码示例: data <- c(rep(1, 10), rep(2, 5), rep(3, 6)) hist(data, breaks = c(0.5, 1.5, 2.5, 3.5)) 效果图如下: 第二种:指定分隔好的区间的个数,会根据区间个数自动去计算区间的大小 代码示例: 3)freq: 逻辑值,默认值为TRUE , y轴显示的是每个区间内的频数,FALSE, 代表显示的是频率(= 频数/ 总数) 代码示例: par(mfrow = c(1, 2)) data <- c(rep(1, 10), rep(2, 5), rep(3, 6)) hist(data, breaks = c(0.5, 1.5, 2.5, 3.5), freq = T, main = "freq = T") hist(data, breaks = c(0.5, 1.5, 2.5, 3.5), freq = F,

R语言编程的高效方法

穿精又带淫゛_ 提交于 2020-01-22 20:04:50
R语言编程的高效方法 R语言编程的高效方法 高效编程之细节知识点 并行计算 1.查看核数 2.可以使用并行计算的场景 3.Parellel 包 R语言编程的高效方法 学习资料来源: datacamp : writing-efficient-r-code 网络资源: https://cosx.org/2016/09/r-and-parallel-computing http://gforge.se/2015/02/how-to-go-parallel-in-r-basics-tips/ 高效编程之细节知识点 1.使用最新的R版本 通过version指令查看 2.r中读取rds形式的文件速度快于csv文件. readRDS() 3.通过system.time查看函数的一次运行时间 4.通过microbenchmark包中的microbenchmark()查看函数的一次运行时间 library ( microbenchmark ) compare < - microbenchmark ( read . csv ( 'x.csv' ) , readRDS ( 'x.rds' ) , times = 10 ) times=10表示过程重复10遍,一次运行函数需要的时间是随机的 5.电脑硬件越好当然越快 通过benchmarkme包可以查看电脑硬件性能 library (

Jupyter notebook中配置R语言

家住魔仙堡 提交于 2020-01-22 07:39:29
Jupyter notebook中配置R语言 在图书馆发现旁边的小姐姐在用jupyter noteboo写R语言感觉非常炫酷!所以我也想拥有!!但找了几个教程发现一些下问题,如下合并几个教程的说法,亲自尝试可行~ 操作步骤 安装R: 下载地址: R官网下载地址 可以安装Rstudio: 是R的一个IDE,其实也很简洁方便~ 下载地址: Rstudio官网下载地址 Jupyter notebook 默认看这篇教程的盆友们肯定已经安装好了jupyter notebook。 打开terminal,输入R,进入R shell: 继续输入以下命令: install.packages ( c ( 'repr' , 'IRdisplay' , 'evaluate' , 'crayon' , 'pbdZMQ' , 'devtools' , 'uuid' , 'digest' )) devtools::install_github ( 'IRkernel/IRkernel' ) IRkernel::installspec ( user = FALSE ) IRkernel::installspec(user = FALSE) 表示在系统下安装。 等待执行完毕,打开jupyter点击new,就可以看到R的选项啦!!! 来源: CSDN 作者: weixin_43659913 链接: https:/

【记录】R语言的正则匹配与Scala语言中的不同点

大兔子大兔子 提交于 2020-01-20 12:45:28
R语言中的正则匹配与scala语言的中的正则匹配的不同 因为工作中要用到R语言和scala语言,如果R语言和scala语言有不同的时候,我会记录在本篇文章当中 R 语言的正则和 Scala 语言的正则 \\s+ 的区别之一 R 导入一个 Stringr 包的方法中 str_replace_all(string,pattern,replacement) 的方法中利用 \\s+ 可以有效去除编码为160的空格问题。 scala 中的 replaceAll(regex,replacement) 不可以利用 \\s+ 去除这种编码为160的空格。 获取这个特殊的空格: scala 方式: 160.toChar 就可以拿到了,并且利用 \\s+ 无法去除,需要使用 \\u00A0 对这个进行去除操作。有兴趣的小伙伴可以试一下 来源: CSDN 作者: 善皮之 链接: https://blog.csdn.net/OldDirverHelpMe/article/details/104048097

R语言可视化(六)

霸气de小男生 提交于 2020-01-19 02:35:04
可视化图例位置的调整 可视化百度云资料链接为: 链接: https://pan.baidu.com/s/1w-mjJfZZFAK0R0ELdT9Ihg 提取码:zx9e 数据读取 library(ggplot2) library(RColorBrewer) library(reshape2) df<-read.csv("Data.csv", header = TRUE) 数据描述 数据及代码的参考资料为: 绘图 ggplot(data=df, aes(x=Time,y=value,fill=variable,shape=variable)) + geom_line()+ geom_point(size=4,colour="black") + scale_fill_manual(values=c("#FF9641","#FF5B4E","#B887C3","#38C25D"))+ scale_shape_manual(values=c(21,22,23,24))+ scale_x_continuous(name="Time(d)",breaks=seq(0,20,2))+ scale_y_continuous(breaks=seq(0,90,10),limits=c(0,90),expand =c(0, 1))+ theme_classic()+ theme( text

R语言安装tensorflow

纵然是瞬间 提交于 2020-01-16 20:49:53
环境准备 1.windows、linux两个系统都可以。 2.确定系统环境变量可以调用Python和R这两个工具的命令。以windows为例: 配置好R语言的环境变量后,在任意路径下可以调用R。结果如下: 配置方法参考 R语言环境变量配置: https://blog.csdn.net/tandelin/article/details/94580789 R语言环境变量配置完成后,进行python环境变量配置。windows下python环境变量配置效果如下: 在cmd的任意位置可以调用python。 python环境变量配置省略,可以参照R和java的环境变量方法配置进行领悟。 Python安装Tensorflow 注意:tensorflow对Python的版本有一定要求,请自行官网查看。 pip install tensorflow-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple/ --default-timeout=100 R语言安装Tensorflow install.packages("tensorflow", repos = "http://cran.rstudio.com/") R语言启动Tensorflow library(tensorflow) sess = tf$Session() hello <- tf

R语言低级绘图函数-points

删除回忆录丶 提交于 2020-01-16 18:47:25
points 用来在一张图表上添加点,指定好对应的x和y坐标,就可以添加不同形状,颜色的点了; 基本用法: 通过x和y设置点的坐标 plot(1:5, 1:5, xlim = c(0,6), ylim = c (0,6), type = "n") points(x = c(3, 3), y = c(3, 5)) 效果图如下: 参数设置: cex : 设置点的大小 代码示例: plot(1:5, 1:5, xlim = c(0,6), ylim = c (0,6), type = "n") points(x = c(3, 3), y = c(3, 5), cex = c(2, 4)) 效果图如下: lwd : 设置点的边框的宽度 代码示例: plot(1:5, 1:5, xlim = c(0,6), ylim = c (0,6), type = "n") points(x = c(3, 3), y = c(3, 5), cex = 4, lwd = c(2, 4)) 效果图如下: pch : 设置点的形状,取值范围为1到25, 代码示例: plot(1:5, 1:5, xlim = c(0,6), ylim = c (0,6), type = "n") index <- 1:25 start <- 0 for (i in 1:5) { for (j in 1:5) { start <

R语言复习总结

廉价感情. 提交于 2020-01-16 13:30:58
!!!重点!!!:data.frame 绘图 矩阵第一章#R语言是区分大小写的解释型语言 #rm()函数用于删除数据区中的数据第二章#R语言下标从1开始 #向量 vector <- c(20173561,1709,20173562,1707) #矩阵 matrix <- matrix(vector,nrow = 2,ncol = 2,byrow = TRUE) #数组,在创建数组时指定的维度名称需要以列表的形式传入参数 data <- 1:24 dim1 <- c(“A1”, “A2”) dim2 <- c(“B1”, “B2”, “B3”) dim3 <- c(“C1”, “C2”, “C3”, “C4”) array <- array(data,c(2,3,4),list(dim1, dim2, dim3)) #数据框 patientID <- c(1, 2, 3, 4)#数值型向量 age <- c(25, 34, 28, 52)#数值型向量 diabetes <- c(“Type1”, “Type2”, “Type1”, “Type1”)#data.frame会自动将字符型向量转换为factor因子,其水平数等于factor的所有可能的取值数 status <- c(“Poor”, “Improved”, “Excellent”, “Poor”) frame <- data

R 语言 简介

隐身守侯 提交于 2020-01-15 07:46:50
一.统计分析软件说明 统计分析软件有:SPSS, SAS、R语言,Matlab,S-PLUS,S-Miner。 SPSS: 最简单的,都是菜单操作,不过不利于二次程序开发。 SAS: 需要购买,该软件录入语言要非常精确,不能出错,难操作。 R语言:免费软件,可以菜单操作,不过一般要编程的,二次程序开发。 Matlab:基本是程序操作,和R语言差不多,不过功能比较强大。 S-PLUS: 需要购买,基本也是菜单操作,和SPSS差不多。 R与SPSS、SAS相比较,拥有非常突出的优势: 1)产品线齐全。在功能与产品线齐全上已经远远超出SPSS,而与SAS不相上下。有些R的包,比如基因分析常用的Bioconductor在在线基因数据库连接等众多功能上甚至已经远远超出商业软件。 2)免费。请注意,标记为TM或者®符号的软件均需要在SPSS、SAS的基础模块基础之上另行购买,费用往往在千元美元以上。而R的一切功能均是免费。 3)开放。由于R本身是一个统计语言环境,再新的统计模型也很快能实现,所以在结构方程模型、项目反应理论、认知诊断等众多心理测量所使用的功能上,没有现成的统计软件包,使用R则完全可以自己编写算法。同样,由于R是完全开源,我们可以很快地基于研究者已经开发出的算法编写更适合自己情况的算法。 表:R与SAS、SPSS之比较 主题 SAS产品线 SPSS产品线 R语言相关包 高级模块