R语言

多元统计分析R语言建模| 3 多元数据的直观表示

▼魔方 西西 提交于 2020-03-11 21:56:12
箱尾图 :由箱子和其上引出的两个尾组成,表示一定时间内一个班成绩的变化、物体位置的变化、原材料的变化、产品标准的变化等 特征:由四个部分组成,中位数,最大值,最小值,离群值 boxplot() 星相图 :将每个变量的各个观察单位的数值表示为一个图形,n个观察单位就有n个图,每个图的每个角表示每个变量 特征:是雷达图的多元表示形式 stars() 脸谱图 :将每个指标用人脸型的某一部位的形状或大小来表达 特征:利用脸谱之间的差异,反映所对应样品之间的差异特性 faces() 调和曲线图 :三角多项式图,把 高维空间 的一个样品点对应于二维平面上的一条曲线—— 对高维数据进行压缩 特征:n次观测对应n条曲线,画在同一平面上就是一张调和曲线图 plot.andrews() d3.1=read.table('clipboard',header=T)#读取数据 #均值条形图 barplot(apply(d3.1, 1, mean),las=3) barplot(apply(d3.1, 2, mean),col = 1:8) barplot(apply(d3.1, 2, median),col = 1:8) pie(apply(d3.1, 2, median),col = 1:8) #箱尾图 boxplot(d3.1) boxplot(d3.1,horizontal = T) #星相图

Coding and Paper Letter(十三)

巧了我就是萌 提交于 2020-03-11 21:49:52
资源整理。 1 Coding: 1.R语言包mapdeck,使用mapbox GL和deck.gl的交互式地图可视化包。 mapdeck 2.R语言包spatsoc,检测GPS轨迹重定位里的时空分组的包,从而构建基于邻近度的网络。 spatsoc 3.R语言包rstanarm,贝叶斯应用回归建模包。 rstanarm 4.R语言包rstan,stan的R接口。stan是一个统计建模和高性能计算平台。 rstan 5.R语言包nlrx,提供了一些在R语言中用netlogo建模的工具。 nlrx 6.开源项目斯坦福机器学习课程的备忘录。吴恩达大大的课,后面有空一定要来介绍学习成果(挖坑)。 stanford cs 229 machine learning 7.R语言包mapsapi,与谷歌地图API兼容的接口。 mapsapi 8.王江浩老师在GeoSTAT2018上报告的ppt,上一篇也有一位汇报者的ppt,就不一一列出了,GeoSTATA是一个暑期学校,主题是关于联合地理与统计建模。具体介绍见 官网 。从内容来看,非常不错。希望明年有机会可以前往学习。王江浩老师的汇报题目是Urban Sensing and Computing - Big Data Analytic with Open Source Software,也就是城市感知与计算——基于开源软件的大数据分析。

R语言的基本数据结构

旧街凉风 提交于 2020-03-11 16:14:37
1、向量 向量是用于存储数值型、字符型或逻辑性数据的一维数组,执行组合功能的函数c()可用来创建向量 下面创建向量a,并对其进行运算 > a<-c(2,3,4) > a [1] 2 3 4 > a*a [1] 4 9 16 > a*(-a) [1] -4 -9 -16 2、矩阵 矩阵是一个二维数组只要每个元素拥有相同的模式,可通过函数matrix创建矩阵 一般的格式:newmatrix<-matrix(vector,nrow=numbers_of_rows,ncol=number_of_columns,byrow=logical_value,dimnames=list(char_vector_rownames,char_vector_colnames)) 上面的各个参数解释: vector:表示是一个向量,包含了矩阵的元素 nrow和ncol用以指定行和列的维数 dimnames包 列名含了可选的、以字符向量表示的行名 byrows表示矩阵式按行填充(byrows=TRUE)还是按列填充(byrows=FALSE).默认按行 1、创建一个矩阵 > y<-matrix(1:20,nrow=5,ncol=4) > y [,1] [,2] [,3] [,4] [1,] 1 6 11 16 [2,] 2 7 12 17 [3,] 3 8 13 18 [4,] 4 9 14 19 [5,]

R语言实战读书笔记(十三)广义线性模型

懵懂的女人 提交于 2020-03-11 09:41:03
# 婚外情数据集 data(Affairs, package = "AER") summary(Affairs) table(Affairs$affairs) # 用二值变量,是或否 Affairs$ynaffair[Affairs$affairs > 0] <- 1 Affairs$ynaffair[Affairs$affairs == 0] <- 0 Affairs$ynaffair <- factor(Affairs$ynaffair, levels = c(0, 1), labels = c("No", "Yes")) table(Affairs$ynaffair) #用glm fit.full <- glm(ynaffair ~ gender + age + yearsmarried + children + religiousness + education + occupation + rating, data = Affairs, family = binomial()) summary(fit.full) Deviance Residuals: Min 1Q Median 3Q Max -1.5713 -0.7499 -0.5690 -0.2539 2.5191 Coefficients: Estimate Std. Error z value Pr(>|z|)

面板数据回归:R语言code

心已入冬 提交于 2020-03-11 05:42:20
library(plm) library(psych) library(xts) library(tseries) library(lmtest) ## import dataset datas<-read.table("data.txt",header =TRUE) ## adf test pcgdp<-xts(datas$PCGDP,as.Date(datas$year)) adf.test(pcgdp) # result: stationary ltax<-xts(datas$Ltax,as.Date(datas$year)) adf.test(ltax) # result: stationary hp<-xts(datas$hp,as.Date(datas$year)) adf.test(hp) # result: stationary lp<-xts(datas$lp,as.Date(datas$year)) adf.test(lp) # result: stationary ## 协整检验 # Engle-Granger reg<-lm(datas$hp~datas$lp+datas$Ltax+datas$PCGDP) summary(reg) error<-residuals(reg) adf.test(error) # result: residuals

R语言-回归

烈酒焚心 提交于 2020-03-11 05:42:06
定义:   回归是统计学的核心,它其实是一个广义的概念,通常指那些用一个或多个预测变量来预测响应变量.既:从一堆数据中获取最优模型参数 1.线性回归   1.1简单线性回归   案例:女性预测身高和体重的关系   结论:身高和体重成正比关系 1 fit <- lm(weight ~ height,data = women) 2 summary(fit) 3 plot(women$height,women$weight,xlab = 'Height inches',ylab = 'Weight pounds') 4 abline(fit)   1.2添加多项式来提升预测精度    结论:模型的方差解释率提升到99.9%,表示二次项提高了模型的拟合度 1 fit2 <- lm(weight ~ height + I(height^2),data = women) 2 summary(fit2) 3 plot(women$height,women$weight,xlab = 'Height inches',ylab = 'Weight pounds') 4 lines(women$height,fitted(fit2))   1.3多元线性回归   案例探究:探究美国州的犯罪率和其他因素的关系,包括人口,文盲率,平均收入,天气   结论:谋杀率和人口,文盲率呈正相关,和天气,收入呈负相关

R语言--自定义函数证明中心极限定理

一笑奈何 提交于 2020-03-10 16:10:06
myfun<-function(a){ x<-1:100 #先生成一个1到100的序列,后面可以更改这些值,相当于覆盖掉原来的值 x<-data.frame(x) a<-data.frame(a) for(i in 1:100){ #设置循环,循环抽取100个样本,并将计算出来的均值赋值给数据框中的x变量 c<-a[sample(nrow(a),1000),] #注意nrow()只用在data.frame m=mean(c) x$x[i]<-m #覆盖掉x } windows(1280,720);par(mfrow=c(1,2)) plot(density(a$a),main = "这是原来的分布") #destiny是核函数密度估计 plot(density(x$x), #简单理解成估计了定义域上的所有点的概率密度 main = "这是抽取的样本的均数的分布") } ###7.4 .1正态分布#### a<-rnorm(10000,0,1) myfun(a) ###7.4.2指数分布#### b<-rexp(100000,1) myfun(b) ###7.4.3t分布#### c<-rt(1000,3) myfun(c) ###7.4.4F分布#### d<-rchisq(100000,1) myfun(d)    来源: https://www.cnblogs.com

R语言可视化学习笔记之添加p-value和显著性标记

夙愿已清 提交于 2020-03-10 04:21:26
R语言可视化学习笔记之添加p-value和显著性标记 http://www.jianshu.com/p/b7274afff14f?from=timeline 上篇文章中提了一下如何通过ggpubr包为 ggplot 图添加 p-value 以及显著性标记,本文将详细介绍。利用数据集ToothGrowth进行演示 #先加载包 library(ggpubr) #加载数据集ToothGrowth data("ToothGrowth") head(ToothGrowth) ## len supp dose ## 1 4.2 VC 0.5 ## 2 11.5 VC 0.5 ## 3 7.3 VC 0.5 ## 4 5.8 VC 0.5 ## 5 6.4 VC 0.5 ## 6 10.0 VC 0.5 比较方法 R中常用的比较方法主要有下面几种: 方法 R函数 描述 T-test t.test() 比较两组(参数) Wilcoxon test wilcox.test() 比较两组(非参数) ANOVA aov()或anova() 比较多组(参数) Kruskal-Wallis kruskal.test() 比较多组(非参数) 各种比较方法后续有时间一一讲解。 添加 p-value 主要利用ggpubr包中的两个函数: compare_means() :可以进行一组或多组间的比较 stat

多元统计分析R语言建模| 1 概述

可紊 提交于 2020-03-09 13:11:20
1、多元统计分析的历史: 受多种指标共同作用和影响的现象大量存在 多元统计分析方法就是利用数理统计方法来研究解决多指标问题的理论和方法 2、用途 变量之间相依性分析 构造预测模型,进行预报控制 进行数值分析,构造分类模式 简化系统结构,探讨系统内核 如何选择适当的方法解决实际问题? 3、内容 多元数据的数学表示 多元数据的直观分析(可视化) 多元线性相关分析 多元线性回归分析 广义和一般线性模型 判别分析(对象的判别归类) 聚类分析 主成分分析(压缩 因子分析(主成分分析的推广,实际意义 对应分析 典型相关分析 多维标度法 综合评价法 4、统计分析软件及应用 SAS(三大著名统计分析软件,入门困难) SPSS(界面友好,操作方便) S-PLUS(操作简单,图形处理能力强,统计模型全面) 数值计算软件 MATLAB(数值分析,符号计算,工程科学绘图,模拟仿真) 免费的数据分析软件 R(自由软件,学习难度大) Rstudio R语言及其包使用说明 来源: oschina 链接: https://my.oschina.net/jiangroubao/blog/3190439

Coding and Paper Letter(七十七)

谁说我不能喝 提交于 2020-03-08 23:06:26
新一期资源整理。 1 Coding: 1.用于无服务器计算的安全快速微处理器。 firecracker 2.R语言包ggthemeassist,一个RStudio的Add-in插件用于调整ggplot2主题里的一些绘图细节(文字,边框,颜色)。 ggthemeassist 3.数据框概念的Matlab实现。 DataFrame 4.数据科学访谈的问题与回答。 data science interviews 5.SARS-CoV-2病毒下一代菌株构建。 ncov 6.R语言包tibble,一个现代化的数据框重构包,实现不同的数据库构建方式。 tibble 7.大规模对话前训练。问答系统构建的相关内容。 DialGPT 8.一篇即将出版论文的代码。核心是用Landsat影像和Google Earth Engine绘制奥卡万戈三角洲的逐年洪水地图。 OkavangoDelta flooding 9.R语言包poorman,仅使用基础的R语言函数实现的dplyr复刻版。 poorman 10.R语言包gganonymize,匿名化ggplot2中的标签和文本。 gganonymize 11.CGA 3D 计算几何算法库。 xtorcga 12.成为Google Earth Engine的专家。西班牙语的GEE使用课程。 EarthEngineMasterGIS 13