R语言

R语言--rep函数

妖精的绣舞 提交于 2019-11-27 12:09:56
R语言--rep函数 基础用法和参数 版权声明:本文为CSDN博主「Kalinda_yu」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/weixin_40832274/article/details/83443060 基础用法和参数 rep(x,…):将vcector x的值循环n遍 rep(1:4,2) [1] 1 2 3 4 1 2 3 4 … :除了x的其他参数,可以通过*…* 传到其他方法里 times:整个数组循环几遍 rep(1:4,each=3,times = 3) [1] 1 1 2 2 3 3 4 4 1 1 2 2 3 3 4 4 1 1 2 2 3 3 4 4 each:每个element循环几遍 rep(1:4,each=2) [1] 1 1 2 2 3 3 4 4 rep(1:4,c(2,2,2,2)) [1] 1 1 2 2 3 3 4 4 rep(1:4,c(2,1,2,1)) [1] 1 1 2 3 3 4 length.out 输出长度为多少 rep(1:4, each = 2, len = 4) [1] 1 1 2 2 长了会被截掉 rep(1:4, each = 2, len = 13) [1] 1 1 2 2 3 3 4 4 1 1 2 2 3

用Ubuntu和RStudio Server搭建一个R语言的云平台

烂漫一生 提交于 2019-11-27 10:03:55
前一段介绍过利用Windows系统的Ubuntu子系统搭建数据科学平台,此番来介绍下除了jupyter之外的另外一个数据科学神器:RStudio Server。同时基于Ubuntu和RStudio Server搭建一个R语言的云平台,用于数据分析。 1 RStudio Server简介 RStudio Server 是 RStudio 公司打造的一款基于 Web 的开源编辑器。在实际的工程中,我们的服务器大多是基于Linux的,比如常见的 ubuntu、centos 等。这些操作系统有时并不提供图形化界面,这时候RStudio的服务器版本就派上用场了。启动RStudio Server后,进入在浏览器中进入某一个页面后就可以像桌面版一样使用RStudio编辑器。当R的代码在服务器上出现bug了,线上的hotfix是在所难免的,这时候就需要用到 RStudio Server。--百度百科。 事实上就是一个Web版的RStudio。 2 R语言云平台搭建 闲话少说,就来搭建平台吧。首先,这次我是在我自己的办公室的工作站上搭建,因此受到局域网限制,我主要是方便于使用办公室的工作站,某种意义上是个伪云平台。如果真的想搭建一个网络访问式的,必须购买服务器。阿里云等都是可以的。其次除了搭建平台外,由于平常主要在做一些空间分析类的处理,因此搭建完成后还会有一个小的样例代码就当是hello

数据挖掘下的内存处理程序运行数据卡顿的方法:虚存扩展

隐身守侯 提交于 2019-11-27 07:16:55
近期学习汤小丹老师的《计算机操作系统》收获颇多,联想到之前有朋友说:Python比R语言好,原因是Python能处理的数据量比R语言大,在我看来二者并没有谁好谁差,只是看谁能用的好,谁用的频率大而已。 当数据量较大的时候,想是得需要借助多台计算机并行跨节点的方式才能处理。例如,目前已经有了PySpark 、SparkR等的分布式处理方法。 情况描述 1.使用软件对数据进行计算,常常伴随会出现执行时间长,数据卡顿的现象。 2.计算机执行程序的时候,通常在内存保存待处理的数据。程序是为了实现一个特定的目标而预先设计的一组可操作的工作步骤,就可以称为一个程序。对于计算机系统,程序就是系统可以识别的一组有序的指令。 3.这组指令指挥这计算机系统工作。对于计算机系统,简单的说,程序就是系统可以识别的一组有序的指令。程序存储在磁盘上,被加载到内存中,计算机系统从内存中逐条读取指令并执行。 因此数据卡顿这个原因是由于数据计算内存在进行控制,数据量的计算是在内存中发生,那内存的数量是一定的,怎么可能不会卡顿呢? 如何对数据计算过程中的卡顿进行一些改善,于是引入了计算机的虚存概念。 虚存的概念 **把内存与外存有机的结合起来使用,从而得到一个容量很大的“内存”,这是虚拟内存。**进程不完全载入,就叫虚存。可以分成按需取页和按需取段两种方式。 如果用户编制程序时,可以不考虑内存的实际容量

R语言-分析nginx日志

自古美人都是妖i 提交于 2019-11-27 03:09:25
R语言分析nginx日志 nginx日志举例 172.16.1.1 - - [04/Feb/2015:23:40:01 +0800] "POST /api/message/query HTTP/1.1" 200 52 "-" "Apache-HttpClient/4.2 (java 1.5)" "-" "message.test.com" "172.16.3.159" "-" "0.116" "-" "0.116" "-" remote_addr_ac_logon 取出time、url、请求大小, sub(/\[/,"",$4) 去掉时间中的中括号, sub(/Feb/,"2",$4) 把Fed替换为2 awk 的 sub 函数用于替换字符串,语句单独使用,如果使用赋值语句,如 a=sub(/Feb/,"2",$4) 则 a=1 ,返回替换次数 cat message-access.log | awk 'BEGIN {print "time,url,size"} {sub(/\[/,"",$4);sub(/Feb/,"2",$4);print $4","$7","$10}' > message-time.log 然后使用R语言导入这个文件,用 ggplot2 画图,在R语言中通过使用 ddply 函数做统计分组, ddply 的使用参见: ddply使用 但R语言做统计分组效率较低

R语言特征选择——逐步回归

。_饼干妹妹 提交于 2019-11-26 16:07:25
原文链接: http://tecdat.cn/?p=5453 变量选择方法 所有可能的回归 model <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars) ols_all_subset(model) ## # A tibble: 15 x 6 ## Index N Predictors `R-Square` `Adj. R-Square` `Mallow's Cp` ## ## 1 1 1 wt 0.75283 0.74459 12.48094 ## 2 2 1 disp 0.71834 0.70895 18.12961 ## 3 3 1 hp 0.60244 0.58919 37.11264 ## 4 4 1 qsec 0.17530 0.14781 107.06962 ## 5 5 2 hp wt 0.82679 0.81484 2.36900 ## 6 6 2 wt qsec 0.82642 0.81444 2.42949 ## 7 7 2 disp wt 0.78093 0.76582 9.87910 ## 8 8 2 disp hp 0.74824 0.73088 15.23312 ## 9 9 2 disp qsec 0.72156 0.70236 19.60281 ## 10 10 2 hp qsec 0.63688 0

大数据开发学习,大数据学习路线(完整详细版)

混江龙づ霸主 提交于 2019-11-26 15:03:15
很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 在巨大的数据集中进行筛选的最好工具是什么?以下是总结的十大合适大数据处理的编程语言。 1. R语言 R语言是数据科学的宠儿,R语言有着简单而明显的吸引力,使用R语言,只需要短短的几行代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字,它被比喻为是Excel的一个极度活跃版本。 2. Python 如果说R语言是一个神经质又可爱的高手,那么Python是它随和又灵活的表兄弟。作为一种结合了R语言快速对复杂数据进行挖掘的能力并构建产品的更实用语言,Python迅速得到了主流的吸引力。Python是直观的,并且比R语言更易于学习,以及它的生态系统近年来急剧增长,使得它更能够用于先前为R语言保留的统计分析。 在数据处理中,在规模和复杂性之间往往会有一个权衡,于是Python成为了一种折中方案。IPython notebook和NumPy可以用作轻便工作的一种暂存器

R语言生存分析可视化分析

蹲街弑〆低调 提交于 2019-11-26 14:51:53
完整原文链接: http://tecdat.cn/?p=5438 生存分析 对应于一组统计方法,用于调查感兴趣事件发生所花费的时间。 生存分析 被用于各种领域,例如: 癌症研究为患者生存时间分析, “事件历史分析”的社会学 在工程的“故障时间分析”。 在癌症研究中,典型的研究问题如下: 某些临床特征对患者的生存有何影响? 个人三年存活的概率是多少? 各组患者的生存率有差异吗? 基本概念 在这里,我们从定义生存分析的基本术语开始,包括: 生存时间和事件 生存功能和危险功能 癌症研究中的生存时间和事件类型 有不同类型的事件,包括: 复发 死亡 从“应对治疗”(完全缓解)到发生感兴趣事件的 时间 通常称为 生存时间 (或事件发生的时间)。 癌症研究中两个最重要的措施包括:i) 死亡时间 ;和ii)无 复发存活时间 ,其对应于治疗反应与疾病复发之间的时间。它也被称为无 病生存时间 和无 事件生存时间 。 如上所述,生存分析侧重于直到发生感兴趣事件(复发或死亡)的预期持续时间。 Kaplan-Meier生存评估 Kaplan-Meier(KM)方法是一种非参数方法,用于估计观察到的生存时间的生存概率(Kaplan和Meier,1958)。 知识管理生存曲线是知识管理生存概率与时间的关系曲线,它提供了一个有用的数据总结,可以用来估计诸如中位生存时间之类的衡量指标。 R生存分析

【大数据部落】R语言highfrequency高频金融数据导入

爱⌒轻易说出口 提交于 2019-11-26 12:58:25
原文链接: http://tecdat.cn/?p=5287 R中针对高频数据的添加包highfrequency,用于组织高频数据, 高频数据的清理、整理,高频数据的汇总,使用高频数据建立相关模型 都非常方便。但是其中数据输入的过程中,会使用到包里的函数convert()。该函数支持三类的高频数据:  NYSE TAQ数据库中的.txt文件  WRDS数据库中的.csv文件  Tickdata.com的.asc文件 不易获取,因此,输入数据转换成xts,然后进行时间序列分析的过程中存在困难。 因此对于原始数据,我们可以整理成sample数据的格式,然后使用xts包先将其转换成xts格式。 对于时间序列数据要注意的一点是时间数据不单独作为一列,仅作为行名存在,否则在进行转换的过程中会出现colnames和列的数目不符合的错误。 因此对于数据可以先进行预处理。 对于列数据间分隔建议使用tab制表符,否则在r读取的过程中会将时间的日期时间识别为两列。 sample_tdataraw=read.table("E:\\AA_trades.txt",header=F,skip = 1,stringsAsFactors=FALSE)    其中读取时要注意跳过第一行,列名和列数不符的错误。 读取后,对列名赋值 colnames(sample_tdataraw)=c(" ","SYMBOL"

带南海九段线分位数地图可视化(R语言版)

非 Y 不嫁゛ 提交于 2019-11-26 10:29:42
今天带来一篇承诺虾神的可视化博客。内容是使用R语言进行带南海九段线分位数地图可视化。虾神的原博文地址如下(Python版)。 Python实现带南海九段线分位数地图完整可视化版本(附代码及数据) 1999-2017年中国各省旅游外汇收入分析及可视化(附代码及数据) 数据及代码github地址 1 数据下载 虾神把代码和数据放在了github上,没接触过github的人可能对如何下载不太熟悉,这里也简单介绍下两种方式。如果想进一步了解git这种神器的可以安装git,然后按第一种方式下载(以下介绍默认已安装git bash)。而第二种方式则完全不用了解git方面的内容。 1 git clone 首先新建一个你放数据和分析的文件夹。然后先点击浏览虾神提供的github地址,在页面中点击clone or download,即跳出如下的页面,复制https的地址。 然后右击打开git bash。敲入命令行。 git clone https://github.com/allenlu2008/PythonDemo.git 然后敲击回车,即可发现开始下载。当然由于虾神这个仓库内容比较多,是一个比较漫长的下载过程。 2 直接下载(Download ZIP) 第二种方式依旧是点击clone or download。这回是点击Download ZIP。 接下来就进入传统的浏览器点击下载存储文件的范畴了