R语言

R语言中的四类统计分布函数

ぐ巨炮叔叔 提交于 2020-02-01 04:25:51
本文转载自: https://www.cnblogs.com/end/p/3718822.html 作者:end 转载请注明该声明。 R语言 中提供了四类有关统计分布的函数(密度函数,累计分布函数,分位函数,随机数函数)。分别在代表该分布的R函数前加上相应前缀获得(d,p,q,r)。如: 1)正态分布的函数是norm,命令dnorm(0)就可以获得正态分布的密度函数在0处的值(0.3989)(默认为标准正态分布)。 2)同理,pnorm(0)是0.5就是正态分布的累计密度函数在0处的值。 3)而qnorm(0.5)则得到的是0,即标准正态分布在0.5处的分位数是0(在来个比较常用的:qnorm(0.975)就是那个估计中经常用到的1.96了)。 4)最后一个rnorm(n)则是按正态分布随机产生n个数据。 上面正态分布的参数平均值和方差都是默认的0和1,你可以通过在函数里显示指定这些参数对其进行更改。如dnorm(0,1,2)则得出的是均值为1,标准差为2的正态分布在0处的概率值。 要注意的是()内的顺序不能颠倒。 关于二项分布的有关函数为: The Binomial Distribution Description Density, distribution function, quantile function and random generation for the

R语言:数据分析

佐手、 提交于 2020-01-31 23:49:09
R语言:数据分析 一、数据分析概述 (一)数据分析的原则 (二)数据分析的步骤 (三)数据分析的过程 (四)数据分析的对象 二、大数据分析 (一)大数据分析的流程 (二)大数据分析的基本方面 (三)大数据分析的应用 三、数据分析常用工具 一、数据分析概述 数据分析 是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。 (一)数据分析的原则 数据分析是为了验证假设的问题,需要提供必要的数据验证。分析模型构建完成后,需要利用测试数据验证模型的正确性。 数据分析是为了挖掘更多的问题,并找到深层次的原因,并针对可能的原因进行实际运用及跟踪结果再分析。 进行数据分析之前要明确数据分析针对的问题,然后带着问题进行数据分析。 (二)数据分析的步骤 探索性数据分析 对于从多种渠道获得的大量杂乱无章、看不出规律的数据,需要在没有多少经验的情况下第一次对其进行仔细的分析。探索性数据分析能够在这种情况下帮助找到所有这些数据中隐含的信息。 模型选定分析 在探索性分析的基础上,通过定量分析方法,提出一类或几类可能的模型,然后通过进一步的分析,从中挑选一类合适的模型。 推断分析 通常使用数理统计方法,进行一系列的计算和分析,对所确定的模型或估计的可靠程度和精确程度做出推断。 (三)数据分析的过程 明确目标 收集数据 加工整理 选择方法 解释结果

R语言(入门小练习篇)

旧巷老猫 提交于 2020-01-31 02:41:47
  一组学生参加了数学、科学和英语考试。为了给所有的学生确定一个单一的成绩衡量指标,需要将这些科目的成绩组合起来。另外,还想将前20%的学生评定为A,接下来20%的学生评定为B,以此类推。最后,希望按字母顺序对学生排序。 Excel中的数据表(自己一个个敲的,最讨厌做的事情TT)    StuId StuName Math Science English 1 John Davis 502 95 25 2 Angela Williams 465 67 12 3 Bull Jones 621 78 22 4 Cheryl Cushing 575 66 18 5 Reuven Ytzrhak 454 96 15 6 Joel Knox 634 89 30 7 Mary Rayburn 576 78 37 8 Greg England 421 56 12 9 Brad Tmac 599 68 22 10 Tracy Mcgrady 666 100 38 step1:输入数据——R语言导入xlsx 1 #1数据输入 2 install.packages("xlsx") 3 library(xlsx) 4 workbook<-"D:/R语言/code/R语言实战前五章小试身手/StuScore.xlsx"#也可用‘\\’注意转义字符 5 StuScore<-read.xlsx(workbook

R语言与自然语言处理 中文分词

半世苍凉 提交于 2020-01-30 12:12:21
原文学习链接 直接分词 cn = “我爱中国” worker() -> wk segment(cn,wk) [1] “我” “爱” “中国” 词典 查看路径 show_dictpath() [1] “C:/Users/comma/Documents/R/win-library/3.6/jiebaRD/dict” 对“user.dict.utf8”这个文件进行更改。 使用记事本打开,然后在最后补上词条。 再来进行分词(不过我们要重新定义worker才能更新) 获取更多词典 下面这一段没有懂。 所以我们知道我们想要更多的词典,得到海量能够跟得上时代发展的词。有什么办法?我认为能够得到大量新词的地方,有两个:1.搜索引擎;2.输入法。搜狗输入法在搜狗词胞库中提供了大量的词典(https://pinyin.sogou.com/dict/),大家可以自由下载。不过下载的文件格式是以“.scel”为后缀的,双击一般就给我们的输入法补充了一个词库,但是没法让我们的jiebaR直接利用。幸好jiebaR的作者为我们提供了转格式工具,能够把scel文件直接转化为.utf8格式的文本文件,从而直接对这些词进行利用。具体内容可以参照https://github.com/qinwf/cidian,这里给出懒人加载的版本。 1p_load(devtools,stringi,pbapply,Rcpp

R语言数据科学程序包:Tidyverse介绍

℡╲_俬逩灬. 提交于 2020-01-30 10:10:53
R语言数据科学程序包:Tidyverse介绍 1. R语言简介 2. 数据科学简介 3. Tidyverse简介 1. R语言简介 R语言是用于统计计算和绘图的免费软件。它可以在Windows, Unix以及MacOS等系统下运行。用户可以从网上免费下载R语言。 R语言的起源可以追溯到80年代,那时候的AT&T贝尔实验室(也就是现在的朗讯科技)开发了S语言进行数据挖掘、统计分析和绘图。S语言后来演变成为了商业软件S-Plus。后来有一些志愿者将S-Plus改进成为免费的R语言。R语言的统计功能强大,包括线性和非线性模型,经典统计检验、时间序列分析、聚类分析等等。 R语言不但免费,而且开发源代码,是一种自由软件。另外,R语言的编程简单易学。你可以自己写函数,将最新的统计方法应用到R语言中去。R语言的函数和数据集都保存在程序包里面。当我们需要访问这些函数和数据时,需要下载相关的程序包。 2. 数据科学简介 数据科学是一门利用科学的模型、算法和系统,从有结构(Structured)和无结构(Unstructured)的数据中提取信息的学科。数据科学同数据挖掘和大数据密切相关,并将统计学、数据分析、机器学习等方法相结合,利用数据解释和分析问题。信息技术的发展导致大量数据的产生,这就促进了数据科学的发展。从发展过程来看,数据科学经历了经验、理论、计算、数据驱动这4个阶段。 尽管在过去几十年里

R语言:集合运算

此生再无相见时 提交于 2020-01-29 11:42:11
输入三个向量: > a=c(3,5,7) > b=5:9 > c=seq(3,7,2) > d=c(3L,5L,7L) 检查向量中是否有某元素 > is.element(2,a) [1] FALSE > is.element(3,a) [1] TRUE > 3 %in% a [1] TRUE 取交集 > intersect(a,b) [1] 5 7 取并集 > union(a,b) [1] 3 5 7 6 8 9 取差集 > setdiff(a,b) [1] 3 > setdiff(b,a) [1] 6 8 9 > setdiff(b,b) integer(0) 检查两向量是否相同 > setequal(a,b) [1] FALSE > setequal(a,c) [1] TRUE > d=c(3L,5L,7L) > setequal(a,d) [1] TRUE 检查a是否为b的子集 > all(a %in% b) [1] FALSE 来源: https://www.cnblogs.com/maoerbao/p/12145242.html

R语言第八讲续 评估模型之自助法分析案例

馋奶兔 提交于 2020-01-29 05:15:30
题目 今天来用自助法评估一下ISLR 程序包中的 Portfolio (金融资产)数据集的预测函数 相关资料 自助法(Bootstraping) 是另一种模型验证(评估)的方法(之前已经介绍过单次验证和交叉验证)。其以自助采样(Bootstrap Sampling)为基础,即有放回的采样或重复采样。(注:这是一种样本内抽样的方法,即将样本看作总体并从中进行抽样。) 具体做法是 :在含有 m 个样本的数据集中,每次随机挑选一个样本, 将其作为训练样本,再将此样本放回到数据集中,这样有放回地抽样 m 次,生成一个与原数据集大小相同的数据集,这个新数据集就是训练集。这样有些样本可能在训练集中出现多次,有些则可能从未出现。原数据集中大概有 36.8% 的样本不会出现在新数据集中。因此,我们把这些未出现在新数据集中的样本作为验证集。把前面的步骤重复进行多次,这样就可以训练出多个模型并得到它们的验证误差,然后取平均值,作为该模型的验证误差。 如果需要在多个不同的模型中进行选择,那么事先留出测试集,然后在剩余的数据集上用自助法验证模型,选择验证误差最小的模型作为最好的模型,然后用训练集+验证集数据按最好模型的设置训练出一个新的模型,作为最终的模型,最后用测试集测试最终的模型。 实验 为了在这个 数据集上说明自助法的使用,首先必须创建一个函数alpha. fn ()来输入数据(X,Y) , 以

R语言实战 笔记2--第三章 图形初阶

好久不见. 提交于 2020-01-28 00:17:00
attach(mtcars) #绑定 plot(wt,mpg) abline(lm(mpg~wt)) title(“Regression of MPG on Weight”) detach(mtcars) #解除 保存图形的函数:pdf(),还可以使用函数win.metafile()、png()、jpeg()、bmp()、tiff()、xfig() 和postscript() 创建多个图形并随时查看每一个 修改图形参数 一种方法是通过函数par()来指定这些选项 par(lty=2) 第二种方法是为高级绘图函数直接提供optionname=value的键值对。 plot(dose, drugA, type=“b”, lty=2) 指定符号和线条类型的参数(70-) 参 数 描 述 pch 指定绘制点时使用的符号(见图3-4) cex 指定符号的大小。cex是一个数值,表示绘图符号相对于默认大小的缩放倍数。默认大小 为1,1.5表示放大为默认值的1.5倍,0.5表示缩小为默认值的50%,等等 lty 指定线条类型(参见图3-5) lwd 指定线条宽度。lwd是以默认值的相对大小来表示的(默认值为1)。例如,lwd=2将生 成一条两倍于默认宽度的线条 指定颜色的参数 参 数 描 述 col 默认的绘图颜色。某些函数(如lines和pie)可以接受一个含有颜色值的向量 并自动循环使用

R语言第九讲 验证集法

余生长醉 提交于 2020-01-27 04:41:26
目的 为了更好的熟悉分析定性变量的逻辑斯谛回归分析的应用和验证集法(评估拟合拟合模型的一种方法),用一个简单的示例来介绍一下它们在分析数据中的应用。 题目 在 Default 数据集上用income 和 balance 做逻辑斯谛回归来预测 default的概率。现在要用验证集方法来估计这个逻辑斯谛回归模型的测试错误率。在分析之前不要忘记设置一个随机种子。 (a) 拟合一个用income和 balance 来预测 default 的逻辑斯谛回归模型。 (b) 用验证集方法,估计这个模型的测试错误率。步骤如下: i .把样本集分为一个训练集和一个验证袋。 ii. 只用训练集的观测来拟合一个多元逻辑斯谛回归模型。 iii. 计算每个个体违约的后验概率,如果后验概率大于 0.5 ,就将这个个体分到 default类,通过这种方法得到验证集中每 个个体是否违约的一个预测。 iV. 计算验证集错误率, 即验证集中被错误分类的观测所占的比例。 (c) 重复步骤 (b) 三次,用三种不同的分割把观测分为一个训练集和一个验证集。讨论得到的结果。 (d) 现在考虑一个用 income, balance 和一个哑变量 student 来预测 default 的概率的逻辑斯蒂回归模型。用验证集方法来估 计算这个模型的测试错误率。讨论包括哑变量 student 对于减小测试错误率是否有影响。 扩展资料:

R 语言之基础用法

大兔子大兔子 提交于 2020-01-27 04:40:24
本节主要介绍R的一些常用的基础用法。 参考书籍: "Bioinformatics with R Cookbook" 安装 安装 CRAN 上的包: > install.packages("package_name") 安装 Bioconductor 上的包: > source("http://bioconductor.org/biocLite.R") > biocLite("limma") 选择镜像网站(因为默认的镜像网速可能慢): 对于安装 CRAN 上的包: > chooseCRANmirror() 对于安装 Bioconductor 上的包: > chooseBioCmirror() 常用操作 查看当前用户已安装了什么包: > library() 查看已安装 R 的版本信息,操作系统,以及已经载入的包的信息: > sessionInfo() # 这个用法还是很方便好用的。 查看以及改变当前 R 的 path: > getwd() # 查看当前的工作目录 [1] "/home/user" > setwd("/home/user/Downloads") # 改变当前的工作目录 [1] "/home/user/Downloads" 退出: > q() 帮助 在R下一般安装的包很多,每个包的功能也很多,在命令行下熟练掌握 help 的用法是很重要的. 查看R官网上的基础文档,入门文档