R语言

一起学SPSS文章总目录

久未见 提交于 2020-11-03 07:24:20
【重磅】中山医人微信订阅号介绍(V 1.4版) 《SPSS常用统计分析教程(SPSS 22.0中英文版)(第4版)》 配套教学视频 不断制作及持续更新ing…… 【SPSS入门】软件界面的语言设置方法 SPSS Statistics 24.0 抢鲜看 【我问一起学SPSS】卡方值后面为什么有个小a? 【一起学Minitab】聚类分析:Q型聚类 【一起学SPSS】订阅号使用技巧 回复“ SPSSD “获取PPT下载网址 00 统计综合知识 随机化意义的流行病学阐释 关于医学科研设计的若干要点(建议收藏备查) 统计方法选用手册,以后再也不用问别人啦! 有这样一门学科,叫做流行病学 在临床流行病学的基础上谈循证医学 SCI论文常见的统计学问题和处理方法 加强风湿病临床研究力度 如何识别和控制临床研究中的混杂与偏倚 临床研究方法学(一):如何寻找临床研究题目? 临床研究方法学(二):疾病预后研究的设计与分析方法 临床研究方法学(三):因果关系的推导及一些相关的概 念 临床研究方法学(四):确定实验室指标的临床意义与诊断试验 临床研究方法学(五):治疗学研究的设计与分析方法 临床研究方法学(六): 临床医学论文书写要点 常用的多重比较统计方法 P值的迷思(一):显著与非常显著 P值的迷思(二):P值告诉我们什么 P值的迷思(三):与P值相关的几个概念 P值的迷思(四):什么是效应量? 【干货

数据库学习笔记 2 数据库文件基本查询

喜夏-厌秋 提交于 2020-11-02 18:23:04
去年买了一本讲SqlServer的书,这几天把这本尘封已久的书拿了出来,准备按照上面的目录撸一遍。 简单的看了下这本书的目录结构,一共是九个部分 数据库安装 建立数据库和处理数据 高级T-SQL T-SQL编程 企业数据管理 SQL Server安全 监视和审计 性能调整和优化 商业智能 数据库文件 软件安装对我来说已经驾轻就熟了毕竟已经工作有一段时间了,所以我非常偷懒的跳过了第一部分,从第二部分开始看起。(上一篇也说过,我只装了sqlserver dev的数据库引擎,其余什么机器学习呀,Python和R语言还有外部扩展什么的一概没装) 建立数据库说的就比较简单了,首先说的是如何创建物理数据库,其实就是创建数据库的文件。 或许是原来玩的数据量都比较小,所以对数据库文件也就没有什么要求和注意,看完 关系数据库设计和创建物理数据库架构 一章后对数据库文件有了新的认识。 创建一个数据库默认情况下会产生两种文件,一种是数据库文件扩展名为mdf,一种是日志文件扩展名为ldf并且都在一个目录下。 其实数据库文件并不是只有mdf一种,还有一种数据库从文件的扩展名是ndf。 即数据库文件具有主从关系,一个数据库有一个主文件(mdf)和多个从文件(ndf)。 这样设计的原因我想到的场景是如果主文件被写满了,可以迅速创建一个从文件继续存储数据保证数据库的增长。(感觉集群也能实现同样的功能)

模型评估指标

拜拜、爱过 提交于 2020-10-28 17:07:40
本文分享自微信公众号 - 大数据建模笔记(bigdatamodeling) 本文主要介绍python已有模块中模型评估指标的使用,主要有sklearn.metrics、scikitplot.skplt等方法,并且重点展示分类模型的常用的几个评估指标。 载入数据 加载breast-cancer数据集: # 加载数据 import pandas as pd import matplotlib.pyplot as plt from collections import Counter df = pd.read_csv( 'https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data' ,header= None ) Xvar = [ 'X' +str(i) for i in list(range( 1 , 31 ))] var= [ 'id' , 'y' ] + Xvar df.columns = var Counter(df[ 'y' ]) df[ 'y' ] = df[ 'y' ].map({ 'M' : 1 , 'B' : 0 }) df.info() X = df.loc[:, Xvar].values y = df[ 'y' ].values 抽样 抽样如下

python和R语言哪个好?哪个适合数据分析?

▼魔方 西西 提交于 2020-10-28 08:46:32
  数据分析是当下非常受欢迎的领域,而python和R语言在数据分析领域都有着非常重要的作用,那么想要从事数据分析,选择python还是R语言呢?   什么是python?   python由 Guido van Rossem 创建于 1991 年,并强调效率和代码的可读性。想要深入数据分析领域的程序员是python的主要用户。   当你需要在工程环境中工作,会非常喜欢python。它是一种灵活的编程语言,在处理一些新东西上表现非常好,注重可读性和简单性,学习曲线也是较低的。   和R类似,python也有包,pypi 是一个 Python 包的仓库,里面有写好的 Python 库。   python拥有一个很大社区,但是相对于比较分散,因为它是一个通用语言。python在数据科学中占据非常重要地位。   什么是R语言?   Ross Ihaka 和 Robert Gentleman 于 1995 年在S语言中创造了开源语言R。目的是专注于提供更好和更人性化的方式来进行数据分析、统计和图形模型的语言。   R语言主要在学术和研究方面使用,成为企业中使用的全球发展最快的统计语言之一。而且R语言有包罗万象的统计函数可以调用,特别是在时间序列分析方面,无论是经典还是前沿都有相应的包可以直接使用。 来源: oschina 链接: https://my.oschina.net/u

第13届中国R语言会议将在杭州举行

生来就可爱ヽ(ⅴ<●) 提交于 2020-10-22 08:11:19
近日获悉,第13届中国R会(杭州)暨移动营销分析与应用论坛将于11月28-29日在浙江采用线上会议和线下会议结合的方式举办。 2020年,是中国R会值得纪念的第13个年头,在这13年中,变化的是不断壮大的统计与数据科学领域奋斗者队伍,是日渐凝聚的统计力量,而不变的是中国R会的初心——服务广大统计与数据科学爱好者,推动中国R会的不断发展。 会议时间 2020年11月28-29日。 会议地点 线下地点:待定 线上平台:腾讯会议 直播平台:小鹅通 会议主题 此次主题包含但不限于:统计学、大数据、人工智能相关理论及其在各行各业的具体应用,包括医疗健康、生物信息、消费金融、量化投资、工业工程、智能制造、软件工具、计算平台、概率统计、机器学习、人工智能、自然语言、天文地理、城市规划、环境科学、社交网络、政务数据、商务统计、人文科学等诸多话题。 关于本次R语言会议的具体内容,详见下文: https://mp.weixin.qq.com/s/6TdNIktiOJ0R_-SZCjzeHQ 本文分享自微信公众号 - 数据小兵(datasoldier)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/datasoldier/blog

R语言机器学习之caret包运用

|▌冷眼眸甩不掉的悲伤 提交于 2020-10-14 19:31:34
在大数据如火如荼的时候,机器学习无疑成为了炙手可热的工具,机器学习是计算机科学和统计学的交叉学科, 旨在通过收集和分析数据的基础上,建立一系列的算法,模型对实际问题进行预测或分类。 R语言无疑为我们提供了很好的工具,它正是计算机科学和统计科学结合的产物,开源免费, 相对于Python、Orange Canvas、Weka、Kinme这些免费的数据挖掘软件来说,更容易上手,统计图形也更加美观。 今天在这里和大家介绍一下Caret机器学习包的一些基本用法。 一、数据收集 下载kernlab包里的spam数据集,spam是一个邮件数据集,共有4601个观测值,58个变量,最后一个变量是一个二值变量,“spam”和“no spam”,我们要做的工作就是通过建立模型了预测观测值是否为“spam”。首先加载软件包和数据集: > library(caret) 载入需要的程辑包:lattice 载入需要的程辑包:ggplot2 警告信息: 1: 程辑包‘caret’是用R版本3.1.1 来建造的 2: 程辑包‘ggplot2’是用R版本3.1.1 来建造的 > library(kernlab) 警告信息: 程辑包‘kernlab’是用R版本3.1.3 来建造的 > data(spam) > head(spam) make address all num3d our over remove

python可视化分析(matplotlib、seaborn、ggplot2)

一曲冷凌霜 提交于 2020-10-04 03:44:28
python可视化分析总结(matplotlib、seaborn、ggplot) 一、matplotlib库 1、基本绘图命令 3、图形参数设置 4、特殊统计图的绘制 4.1 数学函数图 4.2 气泡图 4.1 三维曲面图 二、seaborn库 1、常用统计图 1.1 箱线图 1.2 小提琴图 1.3 点图 1.4 条图与计数图 1.5 分组图 1.6 概率分布图 2、联合图 3、配对图 三、ggplot库 1、图层画法+常用图形 2、快速绘图 一、matplotlib库 1、基本绘图命令 import matplotlib.pyplot as plt plt.figure(figsize=(5,4)) #设置图形大小 plt.rcParams['axes.unicode_minus']=False #正常显示负号 plt.rcParams['font.sans-self']=['Kai Ti'] #设置字体,这里是楷体,SimHei表示黑体 #基本统计图 plt.bar(x,y);plt.pie(y,labels=x);plt.plot(x,y); plt.hist(df.身高) #若参数density=True则是频率直方图 3、图形参数设置 颜色: plt.plot(x,y,c=‘red’) #参数c控制颜色 横纵坐标轴范围: plt.xlim(0,100),plt.ylim

R语言scale()函数实现数据标准化

只谈情不闲聊 提交于 2020-09-30 03:04:19
对数据进行标准化处理,本来是一个常用的操作,可惜SPSS并没有给内置一个专用的菜单,大家都是通过【描述统计】菜单下勾选【将标准化值另存为变量】选项来完成这一步的。 而R语言就很实在了,用一枚简单的函数就可以轻松搞定。 scale(data,center=T,scale=T) 或默认参数scale(data) 两个参数center和scale的解释: 1.center和scale默认为真,即T或者TRUE 2.center为真表示数据中心化 3.scale为真表示数据标准化 我们用R自带的USJudgeRatings数据集演示一下。 head(scale(USJudgeRatings)) (展示部分结果)和SPSS的结果对比一下,完全一致。 本文完 文/图=数据小兵 更多R统计文章 R语言单一样本t检验案例实现 20个R语言小课堂视频教程送给你 R语言的正态密度曲线很美 R自带pairs函数矩阵散点图 car包spm函数矩阵散点图 用R语言pie函数做饼图 ggplot2统计图形:常见的4种箱线图 ggplot2统计图形:常见的4种直方图 按列索引按列名称删除指定的列数据 R语言Levene方差齐次检验 谁说菜鸟不会数据分析(R语言篇) table函数:分类数据的频数与频率统计 jiebaR包中文分词及词云制作 R语言带文字标签的散点图 如何获取R自带数据集与R包数据集说明文档?

R语言绘制美国疫情地图(可交互式)

戏子无情 提交于 2020-09-29 07:04:08
前两天用python的plotly画了一个疫情图,发现这个挺简单的,但是当我用R画的时候就有点陌生了,毕竟才学没多久。。。一开始我尝试用R中的 ggplot2 包和 maps 包绘制美国疫情地图,但是发现它的呈现出来的是一张图片式的,只能显示宏观的结果,而且绘制的前提是我需要知道对应经纬度下的疫情状况,感觉有点麻烦呀。关于maps包所含的地图数据集: 国家 maps地图数据名 法国 意大利 新西兰 美国(郡) 美国(州) 美国(边界) 全世界 france italy nz country state usa world 不错,有我所需要的地理信息,我们可以绘制一个简单的美国地图(qplot绘制散点): library(maps) library(ggplot2) qplot(long,lat,data=us.cities,color=I('blue'))+borders("state",size=0.5) 效果如下: 关于 ggplot的函数基本使用 可以参考。 更直接详细的可以参考这位大佬的站点: http://zevross.com/blog/2014/07/16/mapping-in-r-using-the-ggplot2-package/ 。 正如你所见,很宏观的显示出一些信息,但是我想让我的地图更具互动式,我在查看plotly官网的时候

单细胞测序step1——搭建云服务器下网页版Rstudio

走远了吗. 提交于 2020-09-28 13:53:36
单细胞测序step1——搭建云服务器下网页版Rstudio 为何是云服务器? 之前看到师兄在朋友圈抱怨说服务器28G的内存不够用非常苦恼,之后我就打消了用实体服务器的念头,选择云服务器主要有以下几点原因: 便宜 ,16核64G+带宽5M+100G附加存储= 2.6元/小时 (所选配置越高价格越高,暑假有优惠!) 稳定性好 ,对于新手来说,云服务器简直是 试错 神器!!担心自己一顿操作搞坏云服务器?不可能的!搞坏了分分钟可以再开一台,当然,对于已经搭建了各种程序环境,保存有数据的老玩家来说,敲代码还是要慎重。 分钟级快速批量部署 灵活调整CPU,内存与硬盘等配置 多用多付,少用少付****按需计费 ,随时关机。包年包月咱买不起,但是每天一两小时的小打小闹还是可以的; 按需选购华为云服务器 购买地址 https://www.huaweicloud.com/pricing.html?ticket=ST-3209566-DUkHn1d3PEdDKcbgiZmWYCW4-sso#/ecs : 镜像首选ubuntu,也有windows可选 登陆方式首选**"密码登录“”**(密钥过于复杂) 大部分流程就跟随着网页要求来,选择自己需要的配置资源下单,最后在控制台开启这台属于你自己的云服务器。 重点——获得公网IP123.256.18(例) windows电脑连接云服务器 在自己电脑上找到