R语言

R语言字符串拆分strsplit()

孤街浪徒 提交于 2019-12-02 12:02:31
R语言字符串拆分及合并 字符串分割函数:strsplit() 其命令形式为:strsplit(x, split, fixed= F, perl= F, useBytes= F) 参数x为字符串格式向量,函数依次对向量的每个元素进行拆分 参数split为拆分位置的字串向量,即在哪个字串处开始拆分;该参数默认是正则表达式匹配;若设置fixed= T则表示是用普通文本匹配或者正则表达式的精确匹配。用普通文本来匹配的运算速度要快些。 参数perl的设置和perl的版本有关,表示可以使用perl语言里面的正则表达式。如果正则表达式过长,则可以考虑使用perl的正则来提高运算速度。 参数useBytes表示是否逐字节进行匹配,默认为FALSE,表示是按字符匹配而不是按字节进行匹配。 Example1 > files [1] "std_target_201907.csv" "td_qizha_V1_20190808V1.csv" [3] "td_qizha_V2_20190808V1.csv" "td_query_20190808V1.csv" [5] "td_zhixin_20190808V1.csv" "xy_apply_20190808V1.csv" [7] "xy_default_20190808V1.csv" "xy_duotou_20190808V1.csv" [9] "yl

Coding and Paper Letter(一)

随声附和 提交于 2019-12-02 06:13:15
最近发现需要在快速阅读背景下,对快餐式资源做整理与收集。以Coding(以Github)和Paper(自己看到的一些论文,论文一般主要看题目和摘要做些简单小结)的资源为主。 1 Coding: 1.QGIS上的变形地图插件,我后面会专门来介绍变形地图这个主题的内容。 qgis-cartogram源码 2.火星坐标与地球坐标转换开源代码。 命令行版 Python版 项目与说明 3.空间统计开源软件GeoDa资源。 GeoDa 源码 4.空间统计分析开源Python库——PySAL。 PySAL GitHub 5.GIS资源链接整理。 Awesome GIS 6.R语言包(rasterVIS)。一个专门针对栅格做可视化的包。十分强大。 rasterVis GitHub 7.基于CityEngine开发的地理设计工具箱。这个项目讨论了一系列工具,这些工具旨在使数据驱动设计能够支持大规模方案规划项目。这些工具旨在集成GIS和CityEngine,以支持创建大量3D内容,以支持城市规划/地理设计项目。创建的内容可用于创建图像作为剪切图纸的一部分(与数据驱动页面一起使用),或链接到Web地图中的Web内容(通过提供弹出窗口或Web场景链接到的内容)。这里提出的工作流程的重点是街道,但脚本也支持与建筑物/批次/分区可视化相关的项目。意图:这些工具的目的是通过结合使用GIS和CityEngine

R语言 scale()函数

别说谁变了你拦得住时间么 提交于 2019-12-01 22:17:29
1.scale() 函数 #Usage scale(x, center = TRUE, scale = TRUE) #center中心化,scale标准化 #Arguments x :a numeric matrix(like object).    2.关于误差e的假设 假设中,e的方差为σ^2 σ^2 的估计为 mse mse = sse/(n-p) p为回归参数的个数 不能用scale函数直接求标准化残差,因为其对应的公式为 (e-mean(e)) / sqrt(sse/(n-1)) 而不是 n-p 来源: https://www.cnblogs.com/jiaxinwei/p/11718855.html

R语言与Python对比

爱⌒轻易说出口 提交于 2019-12-01 10:56:43
R语言作为统计界第一语言(软件),很多时候与我们号称分析界第一语言的Python老是被人拿起来对比,所以今天专门做了一个表格,简介一下R语言与Python语言的对比情况。 首先还是我Python神图压镇: 首先介绍一下R语言吧: 有个小段子,说为什么要叫R语言呢?就是因为两位创始人的名字,都是以"R"开头的,所以,干脆一拍即合,就叫R语言吧…… R语言有很多的特点……当然,看这张图,是不是觉得很眼熟啊,没错,如果看过以前那篇“Python大法好”的文章的同学,发现,R语言怎么和Python的特性这么相似捏? 其实R也有很多自己特性,下面是它最显著的几个特性: 1、就是命令模式。Python虽然也支持命令模式,但是相对来说,更偏向于流程控制语句,也就是可以写一堆语句,然后执行。R本身基本上不需要用到流程控制(当然,它也支持流程控制)。 2、就是交互性。这样是命令模式的一个特点,敲回车,出结果。但是又不像SPSS那种用鼠标扎针的交互方式(在键盘上运指如飞逼格瞬间提升很多……好莱坞大片里面,高手黑客都是不用鼠标的,当然,这样很合理,SSH或者Telent到远程服务器上,怎么鼠标?) 3、也是R语言最大的特点,统计学特性……好吧R语言与其他所有计算机语言最大的本质区别,就是它是一门统计学家发明的语言(其他语言,基本上都是码农发明的,当然,也有数学家发明的),那么就有很多神奇特点。 比如

R语言基础(一):数据结构

家住魔仙堡 提交于 2019-12-01 07:22:07
R拥有许多用于存储数据的对象类型,包括 标量、向量、矩阵、数组、数据框和列表 。它们在存储数据的类型、创建方式、结构复杂度,以及用于 定位 和 访问 其中个别元素的标记等方面均有所不同。下图是一张R语言数据结构图。 向量 定义: 用于存储数值型、字符型或逻辑型数据的一维数组。向量中的 元素类型必须全为数值型或者字符型或者逻辑型 。向量中的单个元素称为标量,属于特殊的向量。 向量是R语言中最基础,也是最重要的数据类型。 向量类型 数值型向量:向量中的元素全为数字 字符型向量:向量中的元素既可以全为字符,也可以包含数字,但是这里的数字是字符串,并不是数值。 逻辑型向量:向量中的元素只有两种 TURE 或者 FALSE 向量的创建 数值型向量的创建 c(1,2,3,4,5,6) ## [1] 1 2 3 4 5 6 1:6 ## [1] 1 2 3 4 5 6 rep(1,3) # 重复1三次 ## [1] 1 1 1 rep(1:3,3) # 重复(1,2,3)三次 ## [1] 1 2 3 1 2 3 1 2 3 rep(1:3,each = 3) # 重复1,2,3各三次 ## [1] 1 1 1 2 2 2 3 3 3 c(rep(1:3,3),rep(1:3,each = 3)) # 合并向量 ## [1] 1 2 3 1 2 3 1 2 3 1 1 1 2 2 2 3 3 3

apply() 函数家族介绍

女生的网名这么多〃 提交于 2019-12-01 06:16:09
apply() 函数算是R语言中很基础的一个函数,同时还有 sapply() lapply() tapply() 函数精简了 apply() 函数的用法。 apply() 函数是一个很R语言的函数,可以起到很好的替代冗余的for循环的作用,R语言中的循环操作for和while都是基于R语言本身来实现的,而向量操作是基于底层的C语言函数实现的,所以使用apply()函数家族进行向量计算时高性价比的。 apply() 函数可以面向数据框、列表、向量等,同时任何函数都可以传递给 apply() 函数。 apply() 函数 apply()函数的用法如下 lapply() 函数 sapply() 函数 tapply() 函数 来源: https://www.cnblogs.com/0820LL/p/11664437.html

Coding and Paper Letter(四十六)

孤者浪人 提交于 2019-12-01 02:03:20
资源整理。 1 Coding: 1.卫星影像深度学习资源。 satellite image deep learning 2.runoff tools为MOM生成径流文件的一些工具变得轻而易举。 runoff tools 3.NOAA-GFDL海冰模拟器V2.0。 SIS2 4.该仓库提供涉及MOM6和SIS2的模型的配置(输入参数和数据)及其相应的回归数据(用于测试)。 MOM6 examples 5.MOM6源码。 MOM6 6.FMS是一个软件框架,用于支持大气,海洋和气候系统模型的有效开发,构建,执行和科学解释。 FMS 7.各种学习笔记,如VIM,一些书的。 notes 8.一系列R脚本,用于预处理WRFChem(WRF-Chem)空气质量模型的输出。按照需要的方式重新格网化数据。 WRF Chem 9.使用Python的图像多边形注释(多边形,矩形,圆形,线形,点和图像级标记注释)。 labelme 10.R语言包GLMMadaptive的幻灯。 GLMMadaptive presentations 11.R语言包gt的一些小例子。 gt awesome tables 12.R语言包textdata,目标是构建一个文本相关数据集的存储库,以便于访问。 textdata 13.“Advances in Archaeological Practice'”论文的研究纲要。

R语言矩阵/缺失值处理

对着背影说爱祢 提交于 2019-11-30 19:58:14
缺失值处理一般包括三步: 1. 识别缺失数据; 2. 检查导致数据缺失的原因; 3. 删除包含缺失值的实例或用合理的数值代替(插补)缺失值。 1.判断缺失值 函数is.na()、is.nan()和is.infinite()可分别用来识别缺失值、不可能值和无穷值。每个返回结果都是 TRUE或FALSE na表示缺失值 nan表示NOT A NUMBER infinite表示+-Inf 一定要亲手试 x = 0/0,以及x = 1/0 >x <- NA > is .na(x) [ 1 ] TRUE > is .nan(x) [ 1 ] FALSE > is .infinite(x) [ 1 ] FALSE 函数 complete.cases() 可用来识别矩阵或数据框中没有缺失值的行 超级好用 #加载数据集 >data( sleep ,package = "VIM" ) #没有缺失值的行 > sleep [complete .cases ( sleep ),] #列出有一个或多个缺失值的行 > sleep [!complete .cases ( sleep ),] 2.图形探究缺失数 #自己生成图形 > library ( "VIM" ) >aggr(sleep,prop = FALSE ,numbers = TRUE ) matrixplot()函数可生成展示每个实例数据的图形

深入浅出,教你一步步实现数据分析入门、进阶

痴心易碎 提交于 2019-11-30 09:30:48
源|数据分析 最近有很多人在问数据分析的一些问题。关于数据分析到底应该怎么学?如何快速入门,以及技术和业务之间的瓶颈如何突破? 其实,要学数据分析之前,至少要了解一下数据分析师,到底需要哪些技能。有的同学看到数据分析几个字,就马上开始Python函数+控制语句、R语言和ggplot库……上来一顿骚操作,还没入门就放弃了。 这就是需求不明确导致的,当然学习方式也值得商榷,那到底数据分析需要什么样的技能呢? 这里作为例子,从招聘网站上找了几个数据分析的岗位,我们来看看具体的要求是怎样的。 其实企业对数据分析师的基础技能需求差别不大,可总结如下: 分析工具 :一般要求R、Python、FineBI等分析工具至少会一种,会两种以上加分,有的企业因内部需求,会指定的一种; 数据库 :绝大会要求会SQL,部分要求SQL、NoSQL会一种,高级的分析师或者大型企业要求能够处理大数据,需要Hive(较少的需要Hadoop/Spark); 统计学 :若无相关专业背景,需要具备相应的统计学、概率论等基础知识; 数据挖掘 :少部分要求会建模,了解基本的算法模型,能够做数据预测,即便不要求,算法也是加分项; 结果输出 :Excel、PPT、Tableau、FineBI等专业BI工具。Excel和PPT要求的比较多,主要用作常规的数据呈现,与业务部门沟通等,Tableau

r语言按照一列进行分组转置

99封情书 提交于 2019-11-30 01:43:47
数据样式: group value A    1 A    2 A    3 B    5 B    6 C    7 代码: library(readxl) library(arules) df <- read_xlsx('E:/data.xlsx',sheet = "Sheet1") df_1 <- as(split(df$group, df$value),"transactions") #转成数据框类型 df_2 <- as(df_1, "data.frame") #去掉大括号 library(stringr) df_2$items <- str_sub(df_2$items, start = 2L, end = str_length(df_2$items) - 1) 结果样式: group value A    1,2,3 B    5,6 C    7 来源: https://www.cnblogs.com/chuang0104/p/11544431.html