R语言

R语言- 实验报告 - 数据清洗

烈酒焚心 提交于 2020-01-06 12:32:01
一、 实训内容 能对基本的开发环境进行检验和错误排查,以及对新语言软件进行安装。 能使用Navicat for MySQL对MySQL数据库进行基本的连接测试,同时,在mysql中新建student数据库。能利用外部SQL脚本文件对数据库进行数据集的导入和初始化。 熟悉利用eclipse编程工具,新建项目和工具类对mysql数据库进行相应的操作,以及从该项目中导出可执行的jar文件。 利用R-3.6.1-win.exe运行,导出的可执行的jar文件。并编写一个“数据清洗.r”脚本文件,对C:\ inputdir目录下,导出的studentdata.txt数据文件进行数据清洗操作,包括过滤字段等操作。同时,在C:\outputdir目录下生成已经进行数据清洗的数据文件studentdata.txt 。 二、 实验课题目标 掌握基本的开发环境的搭建、检验和错误排查能力,熟悉新的开发语言。 熟悉使用Navicat for MySQL软件对MySQL数据库进行基本的操作。重要的是,能利用外部SQL脚本文件对特定的数据库进行数据集的导入和初始化。 掌握eclipse编程工具的使用,以及在编程过程中熟悉常用的快捷键,提高编程的效率。掌握如何编写一个常规的Java类程序,对mysql数据库进行进本的数据操作,以及能从Java项目中导出相应可执行的jar文件。 掌握R语言的基本语法,以及R-3.6

R语言的数据读入--结构化数据读入

心已入冬 提交于 2020-01-01 05:19:34
目录 文本文件 CSV文件 1.read.table()函数 2.read.csv()函数 xls(xlsx)读取 文本文件 对于文本文件,用命令 read.table() 就可以将数据对象顺利导入,具体使用的语法是: read.table(file_name, header=logical_value, sep=''), 其中,file_name表示文件名,header用于设置是否把数据的第一行识别为变量名,sep则用来指定文件中的分隔符 # 备注:本节内容涉及大量路径的设定,此处以windows系统路径为例,读者在运行时需要根据自己的情况调整! # 清空工作空间 rm(list = ls()) ## 从txt中读入 ## # 输入完整路径,可以顺利读入文件,下面命令可读入存在Downloads文件夹中的movie文件,用户请根据自己的文件路径修改运行 movie_txt = read.table("C:/Users/Dell/Downloads/movie.txt", header = T, fileEncoding = "UTF-8") head(movie_txt) ## name boxoffice doubanscore type duration showtime ## 1 叶问3 77060.44 6.4 动作 105 2016/3/4 ## 2 美人鱼

R语言矩阵运算

主宰稳场 提交于 2019-12-30 02:45:36
R语言矩阵运算 主要包括以下内容: 创建矩阵向量;矩阵加减,乘积;矩阵的逆;行列式的值;特征值与特征向量;QR分解;奇异值分解;广义逆;backsolve与fowardsolve函数;取矩阵的上下三角元素;向量化算子等. 1 创建一个向量 在R中可以用函数 c() 来创建一个向量,例如: > x=c(1,2,3,4) > x [1] 1 2 3 4 2 创建一个矩阵 在R中可以用函数 matrix() 来创建一个矩阵,应用该函数时需要输入必要的参数值。 > args(matrix) function (data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL) data 项为必要的矩阵元素, nrow 为行数, ncol 为列数,注意 nrow 与 ncol 的乘积应为矩阵元素个数, byrow 项控制排列元素时是否按行进行, dimnames 给定行和列的名称。例如: > matrix(1:12,nrow=3,ncol=4) [,1] [,2] [,3] [,4] [1,] 1 4 7 10 [2,] 2 5 8 11 [3,] 3 6 9 12 > matrix(1:12,nrow=4,ncol=3) [,1] [,2] [,3] [1,] 1 5 9 [2,] 2 6 10 [3,] 3 7 11 [4,] 4

R语言-强大的矩阵运算

和自甴很熟 提交于 2019-12-27 18:50:11
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 1 矩阵基本操作 1.1创建向量 R 里面有多种方法来创建向量(Vector),最简单的是用函数 c() 。例如: >X=c(1,2,3,4) >X [1] 1 2 3 4 当然,还有别的方法。例如: >X=1:4 >X [1] 1 2 3 4 还有 seq() 函数。例如: > X=seq(1,4,length=4) > X [1] 1 2 3 4 注意一点, R 中的向量默认为列向量,如果要得到行向量需要对其进行转置。 1.2创建矩阵 R 中创建矩阵的方法也有很多。大致分为直接创建和由其它格式转换两种方法。 1.2.1直接创建矩阵 最简单的直接创建矩阵的方法是用 matrix() 函数, matrix() 函数的使用方法如下: > args(matrix) function (data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL) NULL 其中, data 参数输入的为矩阵的元素,不能为空; nrow 参数输入的是矩阵的行数,默认为1; ncol 参数输入的是矩阵的列数,默认为1; byrow 参数控制矩阵元素的排列方式, TRUE 表示按行排列, FALSE 表示按列排列,默认为 FALSE ; dimnames

R语言笔记之第三章

那年仲夏 提交于 2019-12-27 02:36:00
第三章 1图形参数 par() opar <- par(no.readonly=TRUE)##复制了一份当前参数 par(lty=2,pch=17) plot(dose,drugA,type="b") par(opar) 符号和线条 参数 描述 pch 符号类型 cex 符号大小 lty 线条类型 lwd 线条宽度 pch: 当pch取0~14时,其点为空心点,可以用col(颜色)参数设置其边框的颜色;   当pch取15~20时,其点是实心点,可以用col参数设置其填充的颜色;   当pch取21~25时,其点也是实心点,既可以用col参数设置边框的颜色,也可以用bg参数设置其内部的填充颜色 lty: 颜色 在R中,可通过颜色下标、颜色名称、十六进制、RGB、HSV来指定颜色 参数 描述 col 如col=c(“red”,“blue”)绘制三条线,1红,2蓝,3红 col.axis 坐标轴刻度文字颜色 col.lab 坐标轴标签颜色 col.main/col.sub 主/副标题颜色 fg/bg 前/背景色 文本属性 参数 描述 cex cex.anis 坐标轴刻度文字放大倍数 cex.lab 坐标轴标签放大倍数 cex.main/col.sub 主/副标题放大倍数 图形边界、图形大小 参数 描述 pin 英寸表示(宽、高) 2添加文本、自定义坐标轴和图例 标题 //ann

R语言基础画图

こ雲淡風輕ζ 提交于 2019-12-26 23:52:44
过去一个月实验比较忙,好久没有写点东西了,今天要给amina画图,所以学习了一下R语言的基础画图。 1.plot函数  plot(x,y,xlim=c(0,100),ylim=c(0.4,1), type="o",lwd=2,col=2,pch=24,cex=1.5, yaxs="i",xaxs="i", xlab="Sample Ration(%)",ylab="Accuracy") x,y : 要画图的x轴内容和y轴内容  xlim,ylim: x轴和y轴的范围  type: 表示图的形状,是点、线、点线、阶梯线等等。  lwd: 线的宽度  col: 颜色 pch: 点的形状  cex: 点的大小  yaxs,xaxa: plot默认画图时会在预留一部分坐标空间,设置为“i”后,就可以去掉预留空间 xlab,ylab:x轴和y轴的名称 2. lines函数 当想要在一个图中画多条线时,可以用此函数   lines(LPP$LPP~LPP$x,col = "blue",type = "o",lwd = 2,pch=5) 3.grid 对图添加栅格 grid(nx=NA,ny=6,lwd=2)   nx,ny:分别表示x和y方向的虚线,当值为NA时,不对相应的方向分割,ny=6 表示将y轴等距分割为6段 4.abline   添加一条直线   abline(h=0.85,col=

R语言 数据集

落爺英雄遲暮 提交于 2019-12-24 06:31:06
第二章 创建数据集   1.R语言的数据类型     数值型、字符型、逻辑型、复数型(虚数)和原生型(字节)   2.数据结构     a.向量:存储数值型、字符型和逻辑型数据的一维数组       > a=c(1,2,3,4,5)# 创建 组合功能的函数c()       > a       [1] 1 2 3 4 5       > a[c(1,4)]# 访问 方括号+向量中指定的元素       [1] 1 4     b.矩阵:二维数组       mymatrix=matrix(1:20,nrow=5,ncol=4,byrow=TRUE,dimnames=list(rnames,cnames))# 创建       #参数:元素,行,列,是否按行填充,行列的标签       mymatrix[i,j]# 访问 方括号+向量中指定的元素     c.数据:与矩阵类似,但唯独可以大于2       z=array(1:24,c(2,3,4),dimname=list(dim1,dim2,dim3))# 创建       #参数:元素,a*b*c维,维数行列标签       z[1,2,3]# 访问 方括号+向量中指定的元素     d.数据框:不同列可以包含不同数据类型的数据       mydata=data.frame(coll,coll,coll)# 创建

【R笔记】R语言函数总结

那年仲夏 提交于 2019-12-21 02:46:08
R语言与 数据挖掘:公式;数据;方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母)。不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字。 基本命令要么是表达式(expressions)要么就是 赋值(assignments)。 命令可以被 (;)隔开,或者另起一行。 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression)。 一行中,从井号(#)开始到句子收尾之间的语句就是是注释。 R是动态类型、强类型的语言。 R的基本数据类型有数值型(numeric)、字符型(character)、复数型(complex)和逻辑型(logical),对象类型有向量、因子、数组、矩阵、数据框、列表、时间序列。 基础指令 程序辅助性操作: 运行 q()——退出R程序 tab——自动补全 ctrl+L——清空console ESC——中断当前计算 调试查错 browser() 和 debug()—— 设置断点进行,运行到此可以进行浏览查看(具体调试看browser()帮助文档(c,n,Q)) stop('your message here.')——输入参数不正确时,停止程序执行 cat()——查看变量? 帮助 help(solve) 和 ?solve 等同 ??solve—

R语言:常用统计检验

ぐ巨炮叔叔 提交于 2019-12-20 07:41:37
统计检验是将抽样结果和抽样分布相对照而作出判断的工作。主要分5个步骤: 建立假设 求抽样分布 选择显著性水平和否定域 计算检验统计量 判定 —— 百度百科 假设检验(hypothesis test)亦称显著性检验(significant test),是统计推断的另一重要内容,其目的是比较总体参数之间有无差别。假设检验的实质是判断观察到的“差别”是由抽样误差引起还是总体上的不同,目的是评价两种不同处理引起效应不同的证据有多强,这种证据的强度用概率P来度量和表示。除t分布外,针对不同的资料还有其他各种检验统计量及分布,如F分布、X2分布等,应用这些分布对不同类型的数据进行假设检验的步骤相同,其差别仅仅是需要计算的检验统计量不同。 正态总体均值的假设检验 t检验 t.test() => Student's t-Test require(graphics) t.test(1:10, y = c(7:20)) # P = .00001855 t.test(1:10, y = c(7:20, 200)) # P = .1245 -- 不在显著 ## 经典案例: 学生犯困数据 plot(extra ~ group, data = sleep) ## 传统表达式 with(sleep, t.test(extra[group == 1], extra[group == 2])) Welch Two

R语言第八讲 评估模型之交叉验证法分析案例

我是研究僧i 提交于 2019-12-19 01:21:51
题目 评估Auto数据集上拟合多个线性模型所产生的测试错误率。Auto数据集是存在与ISLR程序包中的一个摩托车相关数据的数据集,读者可自行下载ISLR程序包,并将Auto数据集加载。 相关资料 交叉验证 是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。 那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候。比如在我日常项目里面,对于普通适中问题,如果数据样本量小于一万条,我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话,我们一般随机的把数据分成三份,一份为训练集(Training Set),一份为验证集(Validation Set),最后一份为测试集(Test Set)。用训练集来训练模型,用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集,最终决定使用哪个模型以及对应参数。 回到交叉验证,根据切分的方法不同,交叉验证分为下面三种: 第一种是简单交叉验证, 所谓的简单,是和其他交叉验证方法相对而言的。首先,我们随机的将样本数据分为两部分(比如: 70%的训练集,30