R语言

R语言Wald检验 vs 似然比检验

时光毁灭记忆、已成空白 提交于 2019-11-30 00:50:13
原文链接: http://tecdat.cn/?p=6895 在开展基于概率推理的课程时,关键主题之一是基于似然函数的检验和置信区间构建。通常包括Wald,似然比和分数检验。在这篇文章中,我将修改Wald和似然比检验的优缺点。我将重点关注置信区间而不是检验 。 示例 我们将X表示观察到的成功次数的随机变量,x表示其实现的值。似然函数只是二项式概率函数,但参数是模型参数。 所以MLE只是观察到的比例。 Wald置信区间 如果我们使用将参数空间(在我们的示例中为区间(0,1))映射到整个实线的变换,那么我们保证在原始比例上获得仅包括允许参数值的置信区间。 ​ 对于概率参数绘制的n = 10,x = 1的二项式示例的对数似然函数: 从视觉上我们可以看出,对数似然函数 在绘制时 实际上不是二次方。下图显示了相同的对数似然函数,但现在x轴是对数几率: ​ 二项式的对数似然函数n = 10 x = 1检验,相对于对数几率。 似然比置信区间 虽然似然比方法具有明显的统计优势,但计算上Wald区间/测试更容易。在实践中,如果样本量不是太小,并且Wald间隔是以适当的比例构建的,它们通常是合理的。然而,在小样本中,似然比方法可能是优选的。 如果您有任何疑问,请在下面发表评论。 ​ 大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务 统计分析和数据挖掘咨询服务:

R语言rjags使用随机效应进行臭氧数据分析

我们两清 提交于 2019-11-30 00:40:29
原文链接: http://tecdat.cn/?p=6894 加载和格式化数据 rm(list=ls()) ls() ## [1] "s" "Y" dim(Y) ## [1] 1106 31 dim(s) ## [1] 1106 2 ns <- nrow(Y) plot(s,axes=FALSE,xlab="",ylab="",main="Monitor locations") ​ abline(75,0,col=2) ​ abline(75,0,col=2) ​ 在JAGS中指定模型 Ozone_model <- "model{ # Likelihood # Random effects for(i in 1:ns){ alpha i] ~ dnorm(0, ) } for(j in 1:nt){ gamma j] ~ dnorm(0, ) } # Priors mu ~ dnorm(0,0.01) # Output the parameters of interest sigma2[1] <- 1/taue ] pct[1] <- sigma2[1]/sum(sigma2[]) pct[2] <- sigma2[2]/sum(sigma2[]) pct[3] <- sigma2[3]/sum(sigma2[]) }" 模型 dat <- list(Y=Y,ns=ns,nt=nt

R语言 线性回归分析实例

拈花ヽ惹草 提交于 2019-11-29 22:37:45
y,X1,X2,X3 分别表示第 t 年各项税收收入(亿元),某国生产总值GDP(亿元),财政支出(亿元)和商品零售价格指数(%). (1) 建立线性模型 : ① 自己编写函数: > library(openxlsx) > data = read.xlsx("22_data.xlsx",sheet = 1) > x = data[,-c(1,2)] > x = cbind(rep(1,17),x) > x_mat = as.matrix(x) > y =matrix(data[,2],ncol = 1) > res = solve(t(x_mat)%*%x_mat)%*%t(x_mat)%*%y > res [,1] rep(1, 17) 19412.8597818 X1 0.2679605 X2 -0.2874013 X3 -297.3653736 所以各参数的估计值分别为 ② lm函数 > lm(y~x_mat) Call: lm(formula = y ~ x_mat) Coefficients: (Intercept) x_matrep(1, 17) x_matX1 19412.859781545 NA 0.267960511 x_matX2 x_matX3 -0.287401287 -297.365373557 于是各参数的估计值分别为 这两个方法的结果是一样的。 (2

R语言使用K-Means聚类可视化WiFi访问

丶灬走出姿态 提交于 2019-11-29 17:30:40
原文链接: http://tecdat.cn/?p=6715 可视化已成为数据科学在电信行业中的关键应用。具体而言,电信分析高度依赖于地理空间数据的使用。 这是因为电信网络本身在地理上是分散的,并且对这种分散的分析可以产生关于网络结构,消费者需求和可用性的有价值的见解。 数据 为了说明这一点,使用k均值聚类算法来分析免费公共WiFi的地理数据。 具体地,k均值聚类算法用于基于与特定提供商相关联的纬度和经度数据来形成WiFi使用的集群。 从数据集本身,使用R提取纬度和经度数据: #1 newyorkdf <-data.frame(纽约$ LAT,纽约$ LON) 这是一个数据片段: ​ 确定群集的数量 现在,需要使用scree图确定簇的数量。 #2。确定群集的数量 ​ 从上面可以看出,曲线在大约11个星团处平稳。因此,这是将在k-means模型中使用的聚类数。 K均值分析 K-Means分析本身是: ggplot(newyorkdf,aes(x = newyork.LON,y = newyork.LAT,color = newyorkdf $ fit.cluster))+ geom_point() 在数据框 newyorkdf中 ,显示纬度和经度数据以及群集标签: > newyorkdf newyork.LAT newyork.LON fit.cluster 1 40.75573

R的极客理想系列文章[转自http://blog.fens.me/series-r/]

独自空忆成欢 提交于 2019-11-29 14:27:53
R的极客理想系列文章 @晒粉丝 @每日中国天气 R的极客理想系列文章 R的极客理想系列文章 ,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。 R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。 要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客理想。 图书推荐 图书出版《R的极客理想-工具篇》 图书出版《R的极客理想-高级开发篇》 R基础知识 R是最值得学习的编程语言 [视频购买] [试看] R语言知识体系概览 [视频购买] [试看] 吐槽R的未来 – 统计圈群聊 R的历史版本安装Ubuntu R基础课 fortunes 记录R语言的大智慧 formatR代码自动化排版 多人在线协作R开发RStudio Server R和JSON的傻瓜式编程 R语言的高质量图形渲染库Cairo caTools一个奇特的工具集 R语言时间序列基础库zoo 可扩展的时间序列xts plot.xts时间序列可视化 R数据库访问 RMySQL数据库编程指南

使用RStudio创建自己的Packages实现复用

怎甘沉沦 提交于 2019-11-29 14:27:30
推荐:R的极客理想系列文章 http://blog.fens.me/series-r/ RStudio Server的安装及配置,请参考: http://my.oschina.net/u/2306127/blog/544236 RStudio已经为我们准备了一个有界面的环境,方便我们制作R包。 创建一个工程sayHello 编辑DESCRIPTION 创建sayHello.R的脚本 编辑sayHello.Rd的文档 1). 创建一个工程sayHello 2). 编辑rstudio/sayHello/DESCRIPTION Package: sayHello Type: Package Title: R package demo for sayHell LazyLoad: yes Author: Dan Zhang Maintainer: Dan Zhang Description: This package provides a package demo License: GPL Version: 1.0 Date: 2013-07-31 Depends: R (>= 3.0.1) 3). 编辑rstudio/sayHello/R/sayHello.R的脚本 sayHello<-function(name){ print(paste("Hi",name)) } 4).

R语言stan泊松回归Poisson regression

岁酱吖の 提交于 2019-11-29 11:16:01
原文链接: http://tecdat.cn/?p=6560 读取数据 summary(eba1977) ## city age pop cases ## Fredericia:6 40-54:4 Min. : 509.0 Min. : 2.000 ## Horsens :6 55-59:4 1st Qu.: 628.0 1st Qu.: 7.000 ## Kolding :6 60-64:4 Median : 791.0 Median :10.000 ## Vejle :6 65-69:4 Mean :1100.3 Mean : 9.333 ## 70-74:4 3rd Qu.: 954.8 3rd Qu.:11.000 ## 75+ :4 Max. :3142.0 Max. :15.000 普通 Poisson model glm1 <- glm(formula = cases ~ age + city + offset(log(pop)), family = poisson(link = "log"), data = eba1977) summary(glm1) ## ## Call: ## glm(formula = cases ~ age + city + offset(log(pop)), family = poisson(link = "log"), ## data

R语言旅行推销员问题TSP

若如初见. 提交于 2019-11-29 10:28:51
原文链接: http://tecdat.cn/?p=6551 常用术语中的旅行推销员问题(TSP)是最复杂的问题之一,归结为组合优化。旅行到n个城市(顶点)需要检查(n-1)!可能性。3,000个地点有4 * 10 ^ 9131个可能的解决方案。 本文调查了R包的性能:TSP和tspmeta。结果对我的使用非常满意。 以下代码输入您的TSP225.csv文件并输出您的解决方案和可视化。生成的'tour'对象是一类TOUR和整数;它包含您的解决方案。 coords.df <- data.frame(long=TSP225$Long, lat=TSP225$Lat) coords.mx <- as.matrix(coords.df) # Compute distance matrix dist.mx <- dist(coords.mx) # Construct a TSP object tsp.ins <- tsp_instance(coords.mx, dist.mx ) # tour <- run_solver(tsp.ins, method="2-opt") #Plot autoplot(tsp.ins, tour) ​ 比较解决方案:下图显示了7种启发式解决方案的最佳旅游长度和协和式的确切解决方案。对于协和解决方案,我使用了在UW-Madison主持的NEOS-Server。

R语言-六大数据结构

眉间皱痕 提交于 2019-11-29 09:46:30
R语言有六种基本的数据结构(或者说数据类型吧)。根据数据的 维度 和 同质/异质 可分为5种数据类型,最后再介绍一种特殊的类型“因子”。 同质 异质 1维 原子向量 列表 2维 矩阵 数据框 n维 数组 对于各种类型的具体操作,本文不展开讲。本文仅介绍它们各自的一些生成方式。 (1)原子向量 一个有趣的事情:R中最小的单位并不是“数”,而是“向量”。 例如: > n=5 > is.vector(n) #判断n的数据类型是否为向量 [1] TRUE 对于生成一个向量,我们可以有多种方式: > 1:6 [1] 1 2 3 4 5 6 > 8:3 [1] 8 7 6 5 4 3 > seq(2,9,by=3) [1] 2 5 8 > c(9,4,5) [1] 9 4 5 (2)列表 列表可以包含数字、字符串、向量,甚至是列表、矩阵、函数。由list()创建。 > a=list(1,c(5,2,3),'sfd',T,list(1,3)) > a [[1]] [1] 1 [[2]] [1] 5 2 3 [[3]] [1] "sfd" [[4]] [1] TRUE [[5]] [[5]][[1]] [1] 1 [[5]][[2]] [1] 3 (3)矩阵 二维。由matrix()创建。 > a=matrix(seq(0,10,by=0.9),nrow=4,byrow=TRUE) #行数为4

R语言Wald检验 vs 似然比检验

回眸只為那壹抹淺笑 提交于 2019-11-29 06:35:58
在开展基于可能性推理的课程时,关键主题之一是基于似然函数的测试和置信区间构建。通常包括Wald,似然比和分数测试。在这篇文章中,我将修改Wald和似然比测试的优缺点。我将重点关注置信区间而不是测试 。 示例 我们将X表示观察到的成功次数的随机变量,x表示其实现的值。似然函数只是二项式概率函数,但参数是模型参数。 所以MLE只是观察到的比例。 Wald置信区间 如果我们使用将参数空间(在我们的示例中为区间(0,1))映射到整个实线的变换,那么我们保证在原始比例上获得仅包括允许参数值的置信区间。 对于概率参数绘制的n = 10,x = 1的二项式示例的对数似然函数 从视觉上我们可以看出,对数似然函数 在绘制时 实际上不是二次方。下图显示了相同的对数似然函数,但现在x轴是对数几率: 二项式的对数似然函数n = 10 x = 1示例,相对于对数几率。 似然比置信区间 似然比95%置信区间定义为(或模型参数为)的那些值总之,虽然似然比方法具有明显的统计优势,但计算上Wald区间/测试更容易。在实践中,如果样本量不是太小,并且Wald间隔是以适当的比例构建的,它们通常是合理的(因此它们在统计软件包中使用)。然而,在小样本中,似然比方法可能是优选的。 此外,当似然比方法仍然(通常)合理时,Wald方法完全失败的情况是在测试参数是否位于其参数空间的边界时。出现这种情况的情况包括随机效应模型