R语言

Coding and Paper Letter(七十二)

你离开我真会死。 提交于 2019-12-18 23:15:12
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 资源整理。 1 Coding: 1.自动设置GOMAXPROCS以匹配Linux容器CPU配额。 automaxprocs 2.文言文編程語言。今天来自机器之心的推送,虽然我已经先看到了。来自CMU大四的大佬。 wenyan lang 3.此程序包中的文件采用云优化的GeoTIFF格式,可以在PROJ 7或更高版本的PROJ数据目录中解压缩。 proj datumgrid geotiff 4.该存储库是The Carpentries模板,用于创建研讨会的网站。 2020 01 17 uri 5.R语言包shinyglide,Shinyglide是一个R包,借助Glide JavaScript库,它可以为shiny应用程序提供类似于播放组件。 shinyglide 6.GeoGeometry是一组算法和函数,用于通过地理坐标处理geohash和几何形状。 geogeometry 7.将geoJSON MultiPolygon或Polygon转换成构成它的geohash列表。 geohash poly 8.找到一个多边形中的所有geohash。 用Java实现。 GeoHashesInPolygon 9.R语言包RavenR,用于处理Raven水文建模框架的输入,输出和诊断。 RavenR 10

R语言之Random Forest随机森林

十年热恋 提交于 2019-12-17 20:14:44
什么是随机森林? 随机森林就是 通过集成学习的思想将多棵树集成的一种算法 ,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想--集成思想的体现。 随机森林算法的实质 是基于决策树的分类器集成算法,其中每一棵树都依赖于一个随机向量,随机森林的所有向量都是独立同分布的。随机森林就是对数据集的列变量和行观测进行随机化,生成多个分类数,最终将分类树结果进行汇总。 随机森林相比于神经网络, 降低了运算量的同时也提高了预测精度 ,而且该算法对多元共线性不敏感以及对缺失数据和非平衡数据比较稳健,可以很好地适应多达几千个解释变量数据集。 随机森林的组成 随机森林是由多个CART分类决策树构成,在构建决策树过程中, 不进行任何剪枝动作 ,通过随机挑选观测(行)和变量(列)形成每一棵树。对于分类模型,随机森林将根据投票法为待分类样本进行分类;对于预测模型,随机森林将使用单棵树的简单平均值来预测样本的Y值。 随机森林的估计过程 1)指定m值,即随机产生m个变量用于节点上的二叉树,二叉树变量的选择仍然满足节点不纯度最小原则; 2

R语言在BRFSS数据中可视化分析探索糖尿病的影响因素

北城以北 提交于 2019-12-17 16:52:52
原文链接: http://tecdat.cn/?p=9227 数据集: 行为危险因素监视系统数据 摘要: 该数据集是来自全美约40万份与健康相关主题的问卷调查。BRFSS始于1980年代,并已通过问卷调查在美国用于监测普遍的疾病。该研究是追溯性的,而不是设计性的实验,因此尽管可以推断出相关性,但不能因果关系。 数据集中的特征既是连续的又是分类的。 目标: 探索性别,体重和年龄之间的相关性 第0部分:设置 library(ggplot2) library(dplyr) library(Rgraphviz) library(knitr) library(grid) library(gridExtra) load("brfss2013.RData") # group and count a feature with discrete values feature_vcounts <- function(df, f) { df %>% group_by_at(f) %>% count()} # method for binning values bin_min_sample <- function(p) { n = 10 a = 10/p b = 10/(1-p) max(c(a,b))} # create a new df for simulating binom probability

R语言之字符串

早过忘川 提交于 2019-12-17 00:21:47
格式化数字 formatC() sprintf() format() prettyNum() 输入都是numeric类型(包括数组),输出是character字符向量或数组 > pow <- 1:3 > (powers_of_e <- exp(pow)) [1] 2.718282 7.389056 20.085537 > formatC(powers_of_e) [1] "2.718" "7.389" "20.09" > formatC(powers_of_e,digits=3) [1] "2.72" "7.39" "20.1" > formatC(powers_of_e,digits=3,width=10) [1] " 2.72" " 7.39" " 20.1" > formatC(powers_of_e,digits=3,format="e") [1] "2.718e+00" "7.389e+00" "2.009e+01" > formatC(powers_of_e,digits=3,flag="+") [1] "+2.72" "+7.39" "+20.1" > sprintf("%s %d=%f","Euler's constant to the power",pow,powers_of_e) [1] "Euler's constant to the power 1=2

R语言中的机器学习

余生颓废 提交于 2019-12-16 17:45:04
转载自 R中文论坛(http://rbbs.biosino.org/Rbbs/posts/list/192.page) Machine Learning & Statistical Learning (机器学习 & 统计学习) 网址: http://cran.r-project.org/web/views/MachineLearning.html 维护人员:Torsten Hothorn 版本:2008-02-18 18:19:21 翻译:R-fox, 2008-03-18 机器学习是计算机科学和统计学的边缘交叉领域,R关于机器学习的包主要包括以下几个方面: 1)神经网络(Neural Networks): nnet包执行单隐层前馈神经网络,nnet是VR包的一部分( http://cran.r-project.org/web/packages/VR/index.html )。 2)递归拆分(Recursive Partitioning): 递归拆分利用树形结构模型,来做回归、分类和生存分析,主要在rpart包( http://cran.r-project.org/web/packages/rpart/index.html )和tree包( http://cran.r-project.org/web/packages/tree/index.html )里执行,尤其推荐rpart包

r语言中对LASSO,Ridge岭回归和Elastic Net模型实现

微笑、不失礼 提交于 2019-12-14 22:21:54
原文链接: http://tecdat.cn/?p=3795 介绍 Glmnet是一个通过惩罚最大似然来拟合广义线性模型的包。正则化路径是针对正则化参数λ的值网格处的套索或弹性网络罚值计算的。该算法速度极快,可以利用输入矩阵中的稀疏性x。它符合线性,逻辑和多项式,泊松和Cox回归模型。可以从拟合模型中做出各种预测。它也可以适合多响应线性回归。 glmnet算法采用循环坐标下降法,它连续优化每个参数上的目标函数并与其他参数固定,并反复循环直至收敛。该软件包还利用强大的规则来有效地限制活动集。由于高效的更新和技术,如热启动和主动集合收敛,我们的算法可以非常快地计算解决方案路径。 该代码可以处理稀疏的输入矩阵格式,以及系数的范围约束。其核心glmnet是一组Fortran子程序,它们使执行速度非常快。 该软件包还包括用于预测和绘图的方法以及执行K倍交叉验证的功能。 首先,我们加载glmnet包: library(glmnet) ## Loading required package: Matrix## Loaded glmnet 1.9-9 包中使用的默认模型是高斯线性模型或“最小二乘”,我们将在本节中演示。我们加载一组预先创建的数据用于说明。用户可以加载自己的数据,也可以使用保存在工作区中的数据。 load("QuickStartExample.RData")

所有人都能学会的shu据fen析

时光总嘲笑我的痴心妄想 提交于 2019-12-14 18:44:59
第一章 数据分析师职业概览 1-1 数据分析师的职业概览免费试学 数据分析师的“钱”景如何 什么人适合学数据分析 数据分析师的临界知识 数据分析师的主要职责 第二章 数据分析和数据挖掘的概念和理论 2-1 基础概念免费试学 2-2 探索性数据分析 2-3 预测和分类 2-4 分群和降维 第三章 统计学基础和SPSS软件应用 3-1 描述性统计分析 3-2 假设检验/统计判断 3-3 抽样方法 3-4 一般线性模型 第四章 数据预处理基础 4-1 数据分析前的准备工作 4-2 数据清洗 4-3 数据规范化 第五章 Mysql教程 5-1 SQL简介 5-2 基本查询语句 5-3 交叉查询和子查询 5-4 练表查询 5-5 相关函数 第六章 Excel分析及可视化 6-1 Excel简介 6-2 Excel函数技巧 6-3 Excel快速处理技巧 6-4 Excel可视化技巧 第七章 进阶统计学 7-1 多变量分析方法选择思路 7-2 因子分析 7-3 聚类分析 7-4 对应分析 7-5 多维尺度分析 7-6 时间序列分析 7-7 Logistic 第八章 经典数据挖掘算法 8-1 数据挖掘基础及数据分层抽样 8-2 朴素贝叶斯 8-3 决策树 8-4 神经网络 8-5 支持向量机 8-6 集成算法和模型评估 第九章 R语言入门及基础分析 9-1 R语言基础操作 9-2

R语言实战 第7章

元气小坏坏 提交于 2019-12-11 20:43:30
# 01 描述性统计分析 -------------------------------------------------------------- #针对总体的 mycavs = mtcars[,c(1,4,6)] names(mtcars) #"mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear" "carb" #关注的焦点没加仑汽车行驶的mpg 英里数 hp 马力 wt车重 summary(mycavs) library(psych) describe(mycavs) detach(psych) #针对分组的 aggregate(mycavs,by=list(mtcars$am),mean) #可以调用的函数只有平均数、标准差这样的单返回值函数 describeBy(mycavs,list(mtcars$am)) ##多个分组的话就是 list(name1=groupvar1,name2=groupvar2....) #分类跟分类的频数表 #一维 library(vcd) names(Arthritis) sapply(head(Arthritis),class) ##"ID" "Treatment" "Sex" "Age" "Improved" #一项风湿性关节炎新疗法的双盲临床实验 mytable =

如何用开源bi,打造自己的轻量级bi系统

佐手、 提交于 2019-12-11 16:36:29
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 对于程序员来说,开源的东西都是好的,别的不说,因为可以自己自己随意开发,毕竟每个人都喜欢自己写的代码嘛,也或者,就是不想花钱哈哈哈哈(扎心了) 就拿最近很火的BI来说吧,BI分两种:开源BI和商用BI,说起开源BI就是有爱又恨,这一切都要从微软带起了商业风说起.... 我在网上搜到了一下2018年BI的市场占有率: 说到软件,可能第一反应就是国外的好,于是就先尝试了国外的开源BI。第一个接触的开源BI是pentaho,实在是太臃肿了,花了半年时间没有搞定,bug又多,修改不了。第二个是superset,可视化很强大,不过需要安装Linux,对于非技术人员很不友好,毕竟现在的BI都主打自助式。第三个开源BI就是JasperReports了,这是程序员最受欢迎、最常用的开源报表工具,常和ireport一起搭配使用,不过它有两个致命的缺点:需要学习编程,不支持多源数据源,这无疑是把自己未来的路给封死了....使用了这么多之后,我们决定试试国内的开源BI。 国内的开源BI很多都是假开源,阉割很多核心功能,或者是商业用就要收费。而BI产品又很贵,在商业bi用的比较多的就是tableau,sever价格10万,10个账号,增加一个账号需要1万。由于最近要给公司实施BI,和工程师聊过,如果自己开发一套BI的话,工作量非常大

BI方案用哪家?现在早已是国产BI工具的天下了!

南笙酒味 提交于 2019-12-11 13:52:06
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 最近有一些粉丝问我,公司要上BI了,tableau、powerbi、SAP Business Objects等等哪个更好,根本没咱们国产BI工具什么事儿。 好像说到上BI,很多人的第一反应都是上国外的,觉得国外的BI的厂商发展的那么早,国产BI工具肯定不如国外BI工具,如果你有这个想法,那就大错特了。在BI商业智能这个赛道,国产BI工具可以说是不输国外的。 当然,这里的“跑赢”并不是说在各方面完胜,国外BI工具在技术上确实更加成熟,毕竟早发展这么多年,每个工具也都有各有自己的优劣,无法用一句话去说明哪个工具最好用。但是基于中国这个大市场环境下,国内企业选择国产BI工具是更优的选择。并且在《IDC2018年中国商业智能软件市场追踪报告》中,领跑第一位的也是国内某BI厂商。 作为一个做了十多年BI项目的“老BI人”,在这方面也算有点经验,下面就来给大家说道说道,为什么国产BI工具是国内企业的更优选择。 1.从工具与企业的需求契合度来看,国产BI工具更契合中国企业的需求 中国的企业类型丰富多样,在企业IT建设的建设方式上也是各有千秋。数据库、数据的规范性、系统的开发集成需求也是各不相同。BI除了需要支持各种类型的数据库和数据源,还要支持Hadoop、Kylin、Derby、Gbase一类的大数据平台以及各种数据仓库