R语言

R语言-分组统计

≡放荡痞女 提交于 2019-12-03 01:29:42
https://blog.csdn.net/hongweigg/article/details/49420111 https://blog.csdn.net/sinat_26917383/article/details/51086663 https://blog.csdn.net/u011219650/article/details/41380265 aggregate函数应该是数据处理中常用到的函数,简单说有点类似sql语言中的group by,可以按照要求把数据打组聚合,然后对聚合以后的数据进行加和、求平均等各种操作。 x=data.frame(name=c("张三","李四","王五","赵六"),sex=c("M","M","F","F"),age=c(20,40,22,30),height=c(166,170,150,155)) 构造一个很简单的数据,一组人的性别、年龄和身高,可以用aggregate函数来求不同性别的平均年龄和身高 aggregate(x[,3:4],by=list(sex=x$sex),FUN=mean) 几个注意点: 字符或者factor类型的列不要一起加入计算,会报错 by参数要构造成list,如果有多个字段,by就对应队列,和group by多个字段是同样的道理 x=data.frame(name=c("张三","李四","王五","赵六"),

R语言实战-云图

匿名 (未验证) 提交于 2019-12-03 00:43:02
Ŀ¼ 第一部分  入门 第2章  创建数据集 第3章  图形初阶 第4章  基本数据管理 第5章  高级数据管理 第二部分  基本方法 第6章  基本图形 第7章  基本统计分析 第三部分  中级方法 第8章  回归 第9章  方差分析 第10章  功效分析 第11章  中级绘图 第12章  重抽样与自助法 第四部分  高级方法 第13章  广义线性模型 第14章  主成分和因子分析 第15章  处理缺失数据的高级方法 第16章  高级图形进阶 后记:探索R的世界  357 附录A  图形用户界面  359 附录B  自定义启动环境  362 附录C  从R中导出数据  364 附录D  制作出版级品质的输出  366 附录E  R中的矩阵运算  374 附录F  本书中用到的扩展包  376 附录G  处理大数据  381 附录H  更新R  383 原文:https://www.cnblogs.com/LearnFromNow/p/9348355.html

R语言解线性方程组和求极值

匿名 (未验证) 提交于 2019-12-03 00:40:02
1、R语言矩阵函数 2、求解线性方程组 分析:使用函数solve(a,b),运算a%*%x=b得到x。 a<-matrix(c(1,1,1,-1),2,2); b<-c(3,1); solve(a,b) 运行结果 > a<-matrix(c(1,1,1,-1),2,2);b<-c(3,1);solve(a,b) [1] 2 1 注:这里矩阵a从数组读数是按照列读数 解:先求Jacob行列式(求偏导) 相应的程序(程序名为:Newtons.R)为 Newtons<-function(fun,x,ep=1e-5,it_max=100){ index<-0;k<-1; while(k<it_max){ x1<-x;obj<-fun(x);x<-x-solve(obj$J,obj$f);norm<-sqrt((x-x1)%*%(x-x1)); if(norm<ep){index<-1;break}; k<-k+1} obj<-fun(x); list(root=x,it=k,index=index,FunVal=obj$f) } 在这个函数中,输入变量有:fun是方程构成的函数,x是初始变量,ep是精度要求,缺省时为e-5,it_max是最大迭代次数,缺省为100. 输出变量有:root是方程解的近似值,it是迭代次数,index是指标,index=1表明计算成功,index

R语言基础

匿名 (未验证) 提交于 2019-12-03 00:38:01
# encoding=utf-8 import numpy as np l = [[ 1 , 2 , 3 ] , [ 1 , 3 , 5 ]] type ( l ) # list # np.array npl = np.array ( l, dtype = np.int16 ) # np.array, type ( npl ) # np.array npl.shape # npl.ndim # 缁村害 npl.dtype # npl.size # # np.zeros ( [ 3 , 4 ] ) # 0 np.ones ( [ 3 , 4 ] ) # 1 # np.random.rand ( 2 , 4 ) # 2 X 4 np.random.rand () # np.random.randint ( 1 , 5 , 5 ) # 5 1~5 np.random.randn ( 1 , 5 ) # np.random.choice ( [ 10 , 20 , 30 ] ) # np.random.beta ( 10 , 20 , 100 ) # BETA 1~10 100 # npl = np.arange ( 1 , 11 ) .reshape ( [ 2 , 5 ] ) # 2 5 np.exp ( npl ) # e , npl np.exp2 ( npl ) # 2 ,

用R语言画precision图

匿名 (未验证) 提交于 2019-12-03 00:36:02
背景:生物信息学 目的:衡量算法性能 手段:计算topN个基因在已知基准数据集中的概率,得到每个算法的precision #衡量五种算法的性能 accuracy_A=c() accuracy_B=c() accuracy_C=c() accuracy_D=c() accuracy_F=c() a<-read.csv("算法1结果路径",header=FALSE) A<-as.matrix(a) b<-read.csv("算法2结果路径",header=FALSE) B<-as.matrix(b) c<-read.csv("算法3结果路径",header=FALSE) C<-as.matrix(c) d<-read.csv("算法4结果路径",header=FALSE) D<-as.matrix(d) f<-read.csv("算法5结果路径",header=FALSE) F<-as.matrix(f) E<-read.table("CGC.txt") #基准数据集路径 j=0 aa=0 bb=0 k=0 m=0 n=0 p=0 cc=0 dd=0 pp=0 for ( i in 1:50) #衡量top50的结果 { if(length(which(A[i,1]==E))) {j=j+1} if(i%%2==0&i>=10) { aa=aa+1 accuracy_A[aa]=j/i

Mac版R语言入门(6):R语言图形绘制函数与高级可视化方法

匿名 (未验证) 提交于 2019-12-03 00:33:02
R语言问题讨论交流,欢迎关注我的新浪微博:Jenny爱学习 微信公众号:R语言数据分析与实践 本篇内容:绘图,可视化,plot函数 R语言作为顶级的可视化编程语言,以其出色的绘图功能闻名于统计图届。 画图命令可以被分成三种基本类型: (1)高级绘图函数:把数据作为函数的参数来产生一个图形。所有图中标签均由函数自动产生。 (2)低级绘图函数 (3)交互式的绘图函数 (本篇文章涉及大量不同数据类型的相应绘图方式,对于数据类型不熟悉的读者可以查找微信公众号:R语言数据分析与实践) 一. 高级绘图函数: plot函数 :是一个通用函数,其生成的图形取决于第一个参数的类型。 使用说明:如果x和y是向量,则plot(x,y)产生一个相对x的y的散点图,用包含两个元素x和y的列表或二维矩阵作参数也会有相同的效果。 对于plot(x)如果:(数据类型处理差异请参看微信公众号:R语言数据分析与实践) x是时间序列,则这个函数产生一个关于时间序列的图形 x是数字向量,则它根据向量索引确定的向量值决定图形 x是一个复数向量,则就产生与向量元素相对的图形 对于plot(f)和plot(f,y),设f是一个分组因子,y是一个数字向量,则plot(f)由因子f产生一个线条图形,plot(f,y)是由因子f的每个层次产生一个立方体。 Example1 :生成三角函数自变量从[- π ,2 π ]的图像 >

R语言 时间序列arima模型

匿名 (未验证) 提交于 2019-12-03 00:32:02
基本理论知识 ARMA模型 称为自回归移动平均模型,是时间序列里常用的模型之一。ARMA模型是对不含季节变动的平稳序列进行建模。它将序列值表示为过去值和过去扰动项的加权和。模型形式如下: y t = c + a 1 y t 1 + a 2 y t 2 + . . . + a p y t p + t b 1 t 1 b 2 t 2 . . . b q t q 其中 y t yt t ( l ) y t = c + Θ ( l ) t 其中 ( l ) = 1 a 1 l a 2 l 2 . . . a p l p 称为自回归系数多项式。 Θ ( l ) = 1 b 1 l b 2 l 2 . . . b q l q ARIMA模型 的本质和ARMA是一样的,将ARMA模型里的序列值 y t yt Δ y t = c + a 1 Δ y t 1 + a 2 Δ y t 2 + . . . + a p Δ y t p + t b 1 t 1 b 2 t 2 . . . b q t q 自相关系数acf 刻画的是 y t yt y t k 偏自相关系数pacf 刻画的是去除 y t 1 , y t 2 y t k y t yt y t k 平稳性 :均值为常数,且两个变量间的协方差只取决于它们之间的时间间隔而不取决于时间点。即 E ( y t ) = μ E(yt)=μ C o v ( y

R语言函数总结

匿名 (未验证) 提交于 2019-12-03 00:32:02
R语言与 数据挖掘:公式;数据;方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母)。不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字。 基本命令要么是表达式(expressions)要么就是 赋值(assignments)。 命令可以被 (;)隔开,或者另起一行。 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression)。 一行中,从井号(#)开始到句子收尾之间的语句就是是注释。 R是动态类型、强类型的语言。 R的基本数据类型有数值型(numeric)、字符型(character)、复数型(complex)和逻辑型(logical),对象类型有向量、因子、数组、矩阵、数据框、列表、时间序列。 基础指令 程序辅助性操作: 运行 q()――退出R程序 tab――自动补全 ctrl+L――清空console ESC――中断当前计算 调试查错 browser() 和 debug()―― 设置断点进行,运行到此可以进行浏览查看(具体调试看browser()帮助文档(c,n,Q)) stop('your message here.')――输入参数不正确时,停止程序执行 cat()――查看变量? 帮助 help(solve) 和 ?solve 等同 ??solve―

R语言编写代码的方式

匿名 (未验证) 提交于 2019-12-03 00:30:01
大部分的代码都是基于控制台的交互式操作,但是对于那些要重复好多次的程序片段,将其保存为一段R程序文件是一个不错的选择。通常,R程序以ASCII格式保存,扩展名为“.R” 。 可以在类似记事本、Sumblime Text等文本编辑器中编辑R语言的代码,然后source()函数将代码读入R。 > source("C:/Users/pc/Desktop/func.R") > gcd(12,20) [1] 4 还可以修改和编辑你所写的函数,再将其保存下来。 > gcd2 <- edit(gcd) 文章来源: R语言编写代码的方式

r语言读入数据

匿名 (未验证) 提交于 2019-12-03 00:27:02
文件的输入: 1,SPSS-STATA格式 SPSS <-read.spss( “hsb2.sav”,to.data.frame = T) STATA <-read.dta( “hsb2.dta”) 2,常见的格式 read.table,read.csv,readLine(字符型格式常用) read.table, read.csv差别在于:默认的参数不同。 read.table(file, header = FALSE,sep =“” ,quote =“\”'“) 默认F,即认为数据文件没有标题,也即认为第一行就开始是数据了, sep指定分隔符,默认是空格.quote是引号,默认就是双引号 header = TRUE,sep =“,”,quote =“\”“ ,dec =”。“, fill = TRUE,comment.char =”“) 因为CSV就是逗号分割的意思,当然月必须是逗号.header也是默认有标题的.fill伪是默认填充的,即遇到行不相等的情况,空白域自动添加既定值 readLine有时候需要读取的数据存放在非结构化的文本文件中,例如电子邮件数据或微博数据。这种情况下只能依靠readLines()函数,将文档转为以行为单位存放的列表格式。 3,数据库--- RODBC包 如图4所示,批量读取--xlsx包 5,批量读入XLSX文件 - 先转换为CSV后读入