R语言

R语言中ARIMA模型

匿名 (未验证) 提交于 2019-12-03 00:22:01
R语言中ARIMA模型 setwd( "E:\\R_workspace\\R语言数据分析与挖掘实战\\chp5" ) library(forecast) library(fUnitRoots) Data <- read.csv( "./data/arima_data.csv" , header = TRUE)[, 2 ] View(Data) # 时间序列(使用ts()函数进行时间序列转化) # 时间序列对象是一种专为时间序列分析而设计的对象类型, # 其中包括两个维度,一个是描述指标的数值,还有一维是时间。 # 时间序列对象和一般数值型向量类似,只不过是加了一个时间的描述。 # 在R语言中可以使用ts(数据向量,frequency=表示将时间分开的时间间隔,start=c(第一个数据所表示的年,月)) sales <- ts(Data) plot.ts(sales, xlab = "时间" , ylab = "销量 / 元" ) # 自相关图 acf(sales) # 单位根检验 unitrootTest(sales) # 对原始序列进行 一阶差分,并进行 平稳性和白噪声检验 # 一阶差分 # 语法:(默认)diff(x, lag = 1, diff= 1, …) # 若x是一个数值向量,则表示后一项减前一项,即滞后一阶差分; # lag 表示滞后项 # 如果要指定差分的阶数

R语言-数据合并

匿名 (未验证) 提交于 2019-12-03 00:21:02
1、数据集合并简介 2、数据集准备 ##创建学生信息表 student <- data.frame("name" = c("张三", "李四", "王五", "马六"), "score" = c(65, 70, 61, 98)) ##创建学生年级信息表 class <- data.frame(name = c("张三", "王五", "马六", "小明"), "grade" = c("三年级", "二年级", "四年级", "四年级")) ##转换数据类型 library(data.table) student.dt <- data.table(student) class.dt <- data.table(class) ##转换数据类型 library(dplyr) student.df <- tbl_df(student) class.df <- tbl_df(class) 3、基本语法 3.1 merge()函数 参数解释: x,y:需要合并的数据集 by:用于连接两个数据集的列,当两个数据集公共列名相同,可以写成by = "公共列名" by.x、by.y:用于指定依据哪个列合并,常用于当两个数据集公共列名不一样的时候; all、all.x、all.y: 指定x和y的行是否应该全部输出 sort:是否需要排序 3.2 data.table中的方法 首先创建公共键

R语言和sql server相连

匿名 (未验证) 提交于 2019-12-03 00:19:01
我这里考虑用odbc和jdbc的方式进行连接。 1.odbc:开放数据库连接(Open Database Connectivity, ODBC )是为解决异构数据库间的数据共享而产生的,现已成为WOSA(The Windows Open System Architecture ),Windows开放系统体系结构)的主要部分和基于Windows环境的一种数据库访问接口标准ODBC 为异构数据库访问提供统一接口,允许应用程序以SQL 为数据存取标准,存取不同DBMS管理的数据;使应用程序直接操纵DB中的数据,免除随DB的改变而改变。用ODBC 可以访问各类计算机上的DB文件,甚至访问如Excel 表和ASCI I数据文件这类非数据库对象。 首先创建数据源 win7: https://www.2cto.com/database/201412/365396.html win10: https://blog.csdn.net/cuiyaoqiang/article/details/50708851 1. 2. 3. 4. 5. 6. 这个名称就是下面R中第一个参数中名称而不是数据库的名称 7. 8.选择合适的数据库 9. 10. 测试一下成功啦! 完成上面的步骤就创建了odbc 我刚才设置的odbc数据源为 myconn<-odbcConnect("test",uid="sa",pwd=".

R语言和sql server相连

匿名 (未验证) 提交于 2019-12-03 00:19:01
我这里考虑用odbc和jdbc的方式进行连接。 1.odbc:开放数据库连接(Open Database Connectivity, ODBC )是为解决异构数据库间的数据共享而产生的,现已成为WOSA(The Windows Open System Architecture ),Windows开放系统体系结构)的主要部分和基于Windows环境的一种数据库访问接口标准ODBC 为异构数据库访问提供统一接口,允许应用程序以SQL 为数据存取标准,存取不同DBMS管理的数据;使应用程序直接操纵DB中的数据,免除随DB的改变而改变。用ODBC 可以访问各类计算机上的DB文件,甚至访问如Excel 表和ASCI I数据文件这类非数据库对象。 首先创建数据源 win7: https://www.2cto.com/database/201412/365396.html win10: https://blog.csdn.net/cuiyaoqiang/article/details/50708851 1. 2. 3. 4. 5. 6. 这个名称就是下面R中第一个参数中名称而不是数据库的名称 7. 8.选择合适的数据库 9. 10. 测试一下成功啦! 完成上面的步骤就创建了odbc 我刚才设置的odbc数据源为 myconn<-odbcConnect("test",uid="sa",pwd=".

R语言stan泊松回归Poisson regression

匿名 (未验证) 提交于 2019-12-03 00:03:02
原文链接: http://tecdat.cn/?p=6560 读取数据 普通 Poisson model Stan 数据 比较 非常感谢您阅读本文,有任何问题请在下面留言! 大数据部落 统计分析和数据挖掘咨询服务: y0.cn/teradat (咨询服务请联系 官网客服 ) 科研项目; 公司项目外包;线上线下一对一培训;数据采集;学术研究;报告撰写;市场调查。 【大数据部落】 提供定制化的一站式数据挖掘和统计分析咨询 欢迎选修我们的 R语言数据分析挖掘必知必会 课程! 大数据部落 统计分析和数据挖掘咨询服务: y0.cn/teradat (咨询服务请联系 官网客服 ) 科研项目; 公司项目外包;线上线下一对一培训;数据采集;学术研究;报告撰写;市场调查。 【大数据部落】 提供定制化的一站式数据挖掘和统计分析咨询 欢迎选修我们的 R语言数据分析挖掘必知必会 课程! 来源:博客园 作者: lico9e 链接:https://www.cnblogs.com/tecdat/p/11516080.html

R语言正则表达式

匿名 (未验证) 提交于 2019-12-02 23:57:01
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/qq_31468321/article/details/83479313 R语言正则表达式 本文主要说明R语言的正则表达式,主要是一些简单的函数和stringr包常用的方法 正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。 一些R自带的正则函数 grep ,主要参数为 匹配规则,待匹配的字符串 ,返回向量中匹配成功的字符串的下标 s <- c ( '1234abc456' , '123abcdefabc' ) #返回下标 grep ( 'abc' , s ) [ 1 ] 1 2 1 2 3 4 grepl ,主要参数为 匹配规则,待匹配的字符串 ,返回TRUE或者FALSE #返回FALSE OR TRUE grepl ( 'def' , s ) [ 1 ] FALSE TRUE 1 2 3 sub ,主要参数为 匹配规则,替换的字符串,待匹配的字符串 ,返回查找的第一个进行替换 s_t <- sub ( 'abc' , '$$$' , s ) [ 1 ] "1234$$$456" "123$$$defabc" 1 2 gsub ,主要参数为 匹配规则,替换的字符串,待匹配的字符串 ,返回查找的所有进行替换

R语言stan进行贝叶斯推理分析

匿名 (未验证) 提交于 2019-12-02 23:57:01
原文连接: http://tecdat.cn/?p=6252 R的Stan 可以从许多统计软件包中运行Stan。到目前为止,我一直在 从R 运行 Stan ,首先按照 快速入门指南中 的说明安装并运行所有内容。 简单线性回归 第一步是为Stan模型编写文件。这包含一个文件linreg.stan: 该文件的第一部分称为数据,它声明了将作为输入传递给Stan的标量,向量和矩阵。 接下来,我们可以通过运行以下R代码来模拟数据集,并使用Stan和我们的文件linreg.stan来拟合模型: 第一次安装Stan模型时,模型编译成C ++时会有几秒钟的延迟。然而,正如Stan的开发人员描述的那样,一旦编译了模型,就可以将其应用于新的数据集而无需重复编译过程(在执行模拟研究的背景下具有很大的优势。 在上面的代码中,我们要求Stan运行4个独立的链,每个链有1000次迭代。运行后,我们可以通过以下方式汇总输出: 对于回归斜率β,我们的后验均值为0.95(接近用于模拟数据的真实值1)。为了形成95%的后可信区间,我们简单地采用取样后部的2.5%和97.5%的百分位数,这里是0.75到1.17。 您可以从拟合的模型中获取各种其他数量。一种是绘制其中一个模型参数的后验分布。要获得回归斜率,我们可以执行以下操作: β的后验分布直方图 现在让我们使用标准普通最小二乘拟合线性模型: 这给出了我们对斜率0

对比《学习R》PDF代码+《R语言实战第2版》PDF代码+《R数据科学》PDF代码分析

匿名 (未验证) 提交于 2019-12-02 23:54:01
R语言是世界上最流行的用于数据处理和统计分析的脚本语言。考古学家用它来跟踪古代文明的传播,医药公司用它来探索哪种药物更安全、更有效,精算师用它评估金融风险以保证市场的平稳运行。总之,在大数据时代,统计数据、分析数据都离不开计算机软件的支持,在这方面R语言尤其出色。 推荐阅读《学习R》,即使没有任何编程基础,也能顺利阅读,适合夯实基础,尤其是高级循环那一章,简直R的精髓!! 《学习R》高清中文PDF,365页,带目录,文字可复制;《学习R》高清英文PDF,400页,带目录,文字可复制。配套源代码。 下载: https://pan.baidu.com/s/11EpErIPAwOpabOmmY5Ke5w 提取码: 46av 《学习R》分为上下两部分,旨在指导你如何使用R,并提供练习的机会。上半部分主要介绍R的技术细节和使用技巧。 每章都简要介绍了一组不同的数据类型(例如第4章介绍向量、矩阵和数组)或概念(例如第8章介绍分支和循环)。下半部分更侧重实践,展示了从输入数据到发布结果这一标准的数据分析流程。 真正的编程入门。没有专门去讲语法,而是在讲案例,做实用工具的过程中,穿插必要的知识,由问题引出语法点。这样读者从一开始就知道所用工具的存在价值,印象必然更深刻。Learn by creating,对初学者来说要比捧一本语法书好许多。 《R语言实战第2版》中文PDF,558页,带书签目录

R语言data.table包fread读取数据

匿名 (未验证) 提交于 2019-12-02 23:48:02
R语言处理大规模数据速度不算快,通过安装其他包比如data.table可以提升读取处理速度。 案例,分别用read.csv和data.table包的fread函数读取一个1.67万行、230列的表格数据。 # 用read.csv读取数据timestart<-Sys.time() data <- read.csv("XXXXs.csv",header = T,stringsAsFactors = F) timeend<-Sys.time() runningtime<-timeend-timestart print(runningtime) # 返回 runningtime 结果: Time difference of 4.451127 secs timestart<-Sys.time() data1<-fread("XXXXs.csv",header = T,stringsAsFactors = F) timeend<-Sys.time() runningtime<-timeend-timestart print(runningtime)# 返回 runningtime 结果: Time difference of 0.9460249 secs 参考资料: https://zhuanlan.zhihu.com/p/22317779?refer=rdatamining