R语言

R语言笔记:用R语言绘制折线图

天大地大妈咪最大 提交于 2020-08-16 03:07:09
x <- c(1020,1640,2340,5610,7942) y <- c("水产","水果","蔬菜","猪肉","综合") 用plot()函数来绘制折线图: R语言中的基本绘图plot函数,可以绘制不同的图形,语法为:plot(x轴,y轴,图形type类型),一般情况下,x轴和y轴都是数值类型;如果type参数省略,代表的是点图。下面利用一个实例说明利用plot函数绘制折线图,操作如下: plot(x,names.arg = y) plot(x,z) plot(z,x) plot(x,names.arg = y,type = "b") plot(x,names.arg = y,type = "b",col = "red") plot(x,names.arg = y,type = "b",col = "DarkTurquoise") 来源: oschina 链接: https://my.oschina.net/u/3750423/blog/4303342

tushare 金融数据获取(R语言版)

余生颓废 提交于 2020-08-13 07:16:55
在上次 tushare正确爬取 指数数据文章后,看到后台有人留言说是希望能分享一个R语言版,那么好,你们要的R语言版今天来了。 首先,R语言只支持tushare pro,不支持tushare,因此在使用tushare获取数据之前,需要注册后才能使用。 library(Tushare) pro <- pro_api(token = '********** token *********') 股票数据 以平安银行为例: > pro(api_name = 'daily', ts_code='000001.SZ', start_date='20200101', end_date='20200723') ts_code trade_date open high low close pre_close change pct_chg vol amount1 000001.SZ 20200723 14.24 14.29 13.81 14.01 14.41 -0.40 -2.7759 2027525.9 2838535.22 000001.SZ 20200722 14.49 14.65 14.27 14.41 14.49 -0.08 -0.5521 1312951.6 1895447.23 000001.SZ 20200721 14.68 14.68 14.40 14.49 14.73 -0.24

想要从事数据分析,选择python还是R语言呢?

天涯浪子 提交于 2020-08-12 01:57:17
  数据分析是当下非常受欢迎的领域,而python和R语言在数据分析领域都有着非常重要的作用,那么想要从事数据分析,选择python还是R语言呢?   什么是python?   python由 Guido van Rossem 创建于 1991 年,并强调效率和代码的可读性。想要深入数据分析领域的程序员是python的主要用户。   当你需要在工程环境中工作,会非常喜欢python。它是一种灵活的编程语言,在处理一些新东西上表现非常好,注重可读性和简单性,学习曲线也是较低的。   和R类似,python也有包,pypi 是一个 Python 包的仓库,里面有写好的 Python 库。   python拥有一个很大社区,但是相对于比较分散,因为它是一个通用语言。python在数据科学中占据非常重要地位。   什么是R语言?   Ross Ihaka 和 Robert Gentleman 于 1995 年在S语言中创造了开源语言R。目的是专注于提供更好和更人性化的方式来进行数据分析、统计和图形模型的语言。   R语言主要在学术和研究方面使用,成为企业中使用的全球发展最快的统计语言之一。而且R语言有包罗万象的统计函数可以调用,特别是在时间序列分析方面,无论是经典还是前沿都有相应的包可以直接使用。 来源: oschina 链接: https://my.oschina.net/u

数据处理之缺失值的处理

断了今生、忘了曾经 提交于 2020-08-10 21:12:16
目录 缺失值产生的原因 完全变量与不完全变量 缺失值的类型 缺失值的处理方法 直接删除法 填充法 K最近距离邻法(K-means clustering) 多重填补(Multiple Imputation,MI) 缺失值处理的类库 sklearn中关于缺失值的处理类 ​ R语言通过mice包应用多重插补的步骤 代码实现 参考资料 缺失值产生的原因 机械原因 : 由于机械原因导致的数据收集或保存的失败造成的数据缺失,如收集车流量数据的地感线圈损坏等 人为原因 : 由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据等 完全变量与不完全变量 数据集中不含缺失值的变量 ( 属性 ) 称为完全变量,数据集中含有缺失值的变量称为不完全变量 缺失值的类型 完全随机缺失 (Missing Completely at Random, MCAR) 。数据的缺失与不完全变量以及完全变量都是无关的,比如家庭地址的缺失 随机缺失 (Missing at Random, MAR) 。数据的缺失仅仅依赖于完全变量,例如财务数据缺失情况与企业大小有关 非随机 , 不可忽略缺失 (Not Missing at Random,NMAR , or nonignorable) 。不完全变量中数据的缺失依赖于 不完全 变量本身

博主已出版的全部译作汇总

為{幸葍}努か 提交于 2020-08-10 06:29:27
怀揣着“为往圣继绝学”的本心,为了做好知识与思想的搬运工,笔者(联同合作者)已经先后出版了6本计算机科学及信息技术方面的译作,其中很多作品目前仍然经久不衰地处于在售状态。这些作品既包含工程实践方面的经验之谈,又有学术领域的扛鼎之作,有的作品读起来甚至更像一部传奇故事。 笔者由衷感怀这些作品的原作者倾其心力打造出如此经典的传世名作。这些作者有的数次荣获国际IT图书大奖、有的则是相关领域的泰山北斗大名在业内如雷贯耳、有的是世界级的专业技术作家、还有的则是具有数十年丰富经验的名校教授,他们有的仍然活跃于各自领域,但也有的已经仙逝往生。所幸的是,通过深入研读并翻译他们的作品,笔者也以另外一种形式同他们神交许久,更真诚地希望将这些作品介绍给广大中文世界的读者。 由于这些作品各有千秋,不一而足,笔者无法在此详细罗列它们的全部细节。但是,在当今这个信息时代,有兴趣的读者应该不难找到它们的相关介绍。笔者不仅希望下面这个列表可以继续扩充变长,更希望读者能够从中获取新知、得到启迪。祝开卷有益! 译作汇总列表 概率、决策与博弈:基于R语言介绍 ,清华大学出版社,合作译者:补彬,原作者:Abel Rodríguez, Bruno Mendes, * 加州大学圣科鲁兹分校两位统计学教授合作撰写的数理统计入门读物,从纸牌、21点等博弈游戏的角度轻松阐释概率论与统计学中的重要概念 编码

centos7 R-4.0.2 安装

♀尐吖头ヾ 提交于 2020-08-09 17:56:57
清华的R语言镜像链接: https://mirrors.tuna.tsinghua.edu.cn/CRAN/ tar -zvxf R-4.0.2.tar.gz cd R-* yum install -y gcc yum install -y gcc-gfortran yum install -y gcc-c++ yum install -y glibc-headers yum install -y libreadline6-dev gfortran yum install -y readline-devel yum install -y wget libXt-devel yum install -y fonts-chinese tcl tcl-devel tclx tk tk-devel yum install -y mesa-libGLU mesa-libGLU-devel yum install -y install bzip2-devel yum install -y install xz-devel.x86_64 yum install -y install pcre-devel yum install -y install libcurl yum install -y install libcurl-devel yum install -y texinfo.x86_64

R语言:多个因变量时,如何在plot函数中画多条曲线(plot,points,lines,legend函数)

落爺英雄遲暮 提交于 2020-08-09 11:09:42
最近阅读一篇文献《Regional and individual variations in the function of the human eccrine sweat gland》,想看看里面几个变量之间的关系是怎么样,因此把文献里面的数据提取出来, 在R里面输入数据: sample<-seq(1,14,by=1) forehead<-c(249,189,128,111,184,233,313,120,151,196,135,157,145,218) forearm<-c(176,28,136,87,145,109,151,63,101,95,121,98,97,102) back<-c(95,51,55,51,58,77,121,37,39,49,66,58,49,85) sweatgland<-data.frame(sample,forehead,forearm,back);sweatgland 数据如下图所示: 一共有14个样本,其中forehead,forearm,back为对应位置的数量 先画出每个样本的forehead位置的sweat gland 数量 plot(forehead~sample,pch=15,col="DarkTurquoise",ylim=c(0,400),ylab="Number of active sweat glands per cm2"

从C、C++、Java到Python,编程入门到底学什么语言好?

柔情痞子 提交于 2020-08-08 19:59:25
最近, TIOBE 更新了 7 月的编程语言榜单,常年霸榜的 C 、 Java 和 Python 依然蝉联前三位。万万没想到的是, R 语言居然冲到了第八位,创下了史上最佳记录。而且后续随着业内对数据统计和挖掘需求的上涨, R 语言热度颇有些势不可挡的架势。 然而作为程序员吃饭的工具,编程语言之间也形成了某种鄙视链,各大论坛里弥漫着剑拔弩张的气氛,众口难调。也难怪有很多初学者会有疑惑,为什么会有这么多编程语言,我到底应该学什么语言? 回顾编程语言几十年来的兴衰起伏,似乎也折射了整个信息产业的变迁消亡,想要在技术的洪流里激流勇进,找准并学精一两门编程语言更加显得至关重要。 编程语言的黄金时代 “有人不喜欢花括号,开发了Python;有人在一个周末设计了出了JavaScript;有人因为上班太无聊,于是发明了C语言”。关于编程语言的八卦轶事很多,但归根结底,一个编程语言的诞生一定是需求的推动。 从面向机器的语言、面向过程的语言到面向对象的语言,编程语言的历史也经历了由繁到简。 而互联网崛起的90年代,无疑也是编程语言的黄金时代。 套用维基百科的总结,“1990年代未见到有什么重大的创新,大多都是以前构想的重组或变化。” 但就是这样的一个时代,却是各种编程语言大放异彩的开始。 彼时最主流的编程语言是贝尔实验室两位大佬发明的C/C++语言,互联网的载体计算机的基础设施

R语言 PCA 主成分分析

末鹿安然 提交于 2020-08-08 11:06:56
1、关键点 综述:主成分分析 因子分析 典型相关分析,三种方法的共同点主要是用来对数据降维处理的从数据中提取某些公共部分,然后对这些公共部分进行分析和处理。 #主成分分析 是将多指标化为少数几个综合指标的一种统计分析方法 主成分分析是一种通过降维技术把多个变量化成少数几个主成分的方法,这些主成分能够反映原始变量的大部分信息,他们通常表示为原始变量的线性组合。 2、函数总结 #R中作为主成分分析最主要的函数是princomp()函数 #princomp()主成分分析 可以从相关阵或者从协方差阵做主成分分析 #summary()提取主成分信息 #loadings()显示主成分分析或因子分析中载荷的内容 #predict()预测主成分的值 #screeplot()画出主成分的碎石图 #biplot()画出数据关于主成分的散点图和原坐标在主成分下的方向 3、案例 #现有30名中学生身高、体重、胸围、坐高数据,对身体的四项指标数据做主成分分析。 #1.载入原始数据 test<-data.frame( X1=c(148, 139, 160, 149, 159, 142, 153, 150, 151, 139, 140, 161, 158, 140, 137, 152, 149, 145, 160, 156, 151, 147, 157, 147, 157, 151, 144, 141, 139

R语言汇总

痞子三分冷 提交于 2020-08-08 02:45:27
R环境搭建 下载安装 https://mirrors.tuna.tsinghua.edu.cn/CRAN/ RStudio下载安装 https://www.rstudio.com/products/rstudio/download/#download R语言的数据结构 对象的5种基本类型 属性 资源 学习 R 的方法 知识和耐心,是成为强者的唯一方法。 通过阅读来学习。 包括了阅读经典的教材、代码、论文、学习公开课。 通过牛人来学习。 包括同行的聚会、讨论、大牛的博客、微博、twitter、RSS。 通过练习来学习。 包括代码练习题、参加kaggle比赛、解决实际工作中的难题。 通过分享来学习。 包括自己写笔记、写博客、写书、翻译书,和同伴分享交流、培训新人。 阅读清单 一、初学入门: 《R in Action》 从统计角度入手,分高中低三部分由浅入深的讲解了如何用R来实现统计分析。 《The Art of_R Programming》 从程序编写的角度入手,对R的本身特点进行了清晰的介绍。 《learning R》 这本书没有单纯的讲语法,而是和数据分析的流程结合了起来,从数据获取到数据整理再到分析和报告,有一气呵成的感觉,此外最后两章讲如何写稳健的R代码以及写包都是非常精彩的。 二、统计进阶: 《A Handbook of Statistical Analyses_Using