R语言

分别用Excel和python进行日期格式转换成时间戳格式

一世执手 提交于 2020-04-29 13:17:53
最近在处理一份驾驶行为方面的数据,其中要用到时间戳,因此就在此与大家一同分享学习一下。 1.什么是时间戳? 时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。通俗的讲, 时间戳是一份能够表示一份数据在一个特定时间点已经存在的完整的可验证的数据。 它的提出主要是为用户提供一份电子证据, 以证明用户的某些数据的产生时间。 在实际应用上, 它可以使用在包括电子商务、 金融活动的各个方面, 尤其可以用来支撑公开密钥基础设施的 “不可否认” 服务。 2.普通日期与时间戳之间的转换 2.1利用EXCEL 所要用到的公式如下: A1=(B1-70*365-19)*86400-8*3600 其中B1表示正常日期时间格式, A1就是所需的时间戳格式,A1单元格属性日期格式转成常规格式就可以了。 实际操作如下: 如图所示:时间所在列为第K列 现在我们新增一列第N列命名为unix ,并在其第二行键入公式: 点击√,出现如下结果: 现在我们验证我们的结果对不对,在网上在线转换工具https://tool.lu/timestamp/进行测试,如下: 验证发现我们用Excel公式计算出来的结果是正确的。我们将后面的都转换,点击小黑色+号,往下拉,则整列都可以转换成日期戳格式,如下图: 当然Excel需要拖动的体验太不好了

R数据挖掘 第五篇:分类(kNN)

浪子不回头ぞ 提交于 2020-04-25 08:36:01
K最近邻(kNN,k-NearestNeighbor)算法是一种监督式的分类方法,但是,它并不存在单独的训练过程,在分类方法中属于惰性学习法,也就是说,当给定一个训练数据集时,惰性学习法简单地存储或稍加处理,并一直等待,直到给定一个检验数据集时,才开始构造模型,以便根据已存储的训练数据集的相似性对检验数据集进行分类。惰性学习法在提供训练数据集时,只做少量的计算,而在进行分类或数值预测时做更多的计算。kNN算法主要用于模式识别,对于随机分布的数据集分类效果较差,对于类内间距小,类间间距大的数据集分类效果好,而且对于边界不规则的数据效果好于线性分类器。常用于推荐系统:推荐受众喜欢电影、美食和娱乐等。 一,kNN算法逻辑 kNN算法的核心思想是:如果一个数据在特征空间中最相邻的k个数据中的大多数属于某一个类别,则该样本也属于这个类别(类似投票),并具有这个类别上样本的特性。通俗地说,对于给定的测试样本和基于某种度量距离的方式,通过最靠近的k个训练样本来预测当前样本的分类结果。 例如,借用百度的一张图来说明kNN算法过程,要预测图中Xu的分类结果,先预设一个距离值,只考虑以Xu为圆心以这个距离值为半径的圆内的已知训练样本,然后根据这些样本的投票结果来预测Xu属于w1类别,投票结果是4:1。 kNN算法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

Coding and Paper Letter(八十一)

荒凉一梦 提交于 2020-04-24 09:10:36
新一期资源整理。 1 Coding: 1.负责任的可重复性计算机研究指南。 reproducible research guidelines 2.模拟数据并拟合2种物种的居住模型的代码。论文"A multispecies occupancy model for two or more interacting species"的代码实现。 bayes2speciesoccupancy 3.R语言包flametree,可以生成看起来像树木的艺术品。 flametree 4.R语言包cft,未来气候变化工具:轻松访问和下载MACAv2气候数据。 cft 5.Esri公司的故事地图系列相关开源库介绍。有兴趣的可以参加今年Esri杯大学生GIS开发竞赛的A组,即故事地图组。 storymap series 6.FastAPI支持的云优化GeoTIFF切片服务器。 titiler 7.新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。 spider flow 8.R语言包revdepcheck,R包反向依赖检查。 revdepcheck 9.Python库adjusttext,用于Python里matploblit自动调整标签字体位置。 adjustText 10.Python库modin,通过更改一行代码来加快Pandas工作流程。 modin 11

大一上,半期总结

允我心安 提交于 2020-04-23 07:06:04
前半期总的来说是一个适应大学生活的过程,适应学校的英语环境,教学模式,教育系统等等,现在我基本上熟悉了这些东西,开始我顺畅的大学生活。 前半学期总的来说平时周一到周五都认真学习,预习复习兼顾。周末则看看计算机视觉领域所要求的的复变函数,概率论,以及以后找工作打比赛需要用到的重要知识——数据结构。这些都在B站上有很丰富的视频教程。 一.人工智能理论的学习 在人工智能的理论方面(在我们学校的人工智能都是研究生的课程,不过本科生如果不选择两个major的话,而是一个major一个minor则可以在本科阶段选三门研究生的课),我准备在大一下期选COMP5318,也就是machin learning and data mining,大二上选deep learning,大二下选计算机视觉和视频理解,这样从大三开始我就选完了自己能选的研究生的课,还能够提前半年毕业,不过后期全都是必修了。半期假期看了台湾大学李宏毅教授的机器学习课程,看到了循环神经网络,李宏毅教授讲的机器学习总的来说还是挺好的,就是对数学要求高了一点,在概率分布模型当中的高斯分布,协方差之类的当时查了很多资料才理解。看到循环神经网络之后我切换到了斯坦度大学李飞飞的视觉视频,刚好学完了googlenet,resnet,alexnet以及图像的语义分割,不过感觉李飞飞的这个视频讲的不太详细,而且快

R语言kohonen包主要函数介绍

早过忘川 提交于 2020-04-21 20:56:26
最近准备写一篇关于自组织映射 (Self-organizing map)的文章。SOM的代码很多,研究了一圈之后目前使用最顺手的是R语言的kohonen包。 这个kohonen包功能很丰富,但是接口不是特别合理。R语言包大部分是统计学家写的,功能强大,数学上严谨,但是不怎么考虑代码的规范和简洁。 kohonen最重要的四个函数: som xyf supersom somgrid 这个命名的随意性容易让程序员抓狂。简单说, som 和 xyf 是 supersom 的封装版本,分别对应单层SOM和双层SOM,如果是两层以上的多层SOM,必须使用 supersom 。这里需要注意一下函数的输入参数。 主要函数 som(X,...) xyf(X, Y, ...) supersom(data, grid=somgrid(), rlen = 100, alpha = c(0.05, 0.01), radius = quantile(nhbrdist, 2/3), whatmap = NULL, user.weights = 1, maxNA.fraction = 0L, keep.data = TRUE, dist.fcts = NULL, mode = c("online", "batch", "pbatch"), cores = -1, init, normalizeDataLayers

精心整理(含图版)|你要的全拿走!(R数据分析,可视化,生信实战)

霸气de小男生 提交于 2020-04-19 04:43:24
本文首发于“生信补给站”公众号, https://mp.weixin.qq.com/s/ZEjaxDifNATeV8fO4krOIQ 更多关于R语言,ggplot2绘图,生信分析的内容,敬请关注小号。 为了能更方便的查看,检索,对文章进行了精心的整理。建议收藏,各取所需,当前没用也许以后就用到了呢! 一 R资料+计划 R语言精品资料年中无套路赠送 R-plotly|交互式甘特图(Gantt chart)-项目管理/学习计划 二 Bioinfo R|fastqcr QC数据处理 :测序结果的数据质控及图标展示; Bioinfo|bedtools-操作VCF文件 VCF文件的常见合并,过滤等操作; R|生存分析(1) :生存分析介绍以及R实现,KM绘图; R|生存分析-结果整理 :一键式输出所有变量的COX结果; R|timeROC-分析 :时间依赖的生存分析; Nomogram(诺莫图) | Logistic、Cox生存分析结果可视化 Forest plot(森林图) | Cox生存分析可视化 R-forestplot包| HR结果绘制森林图 maftools|TCGA肿瘤突变数据的汇总,分析和可视化 maftools | 从头开始绘制发表级oncoplot(瀑布图) ggalluvial|炫酷桑基图(Sankey),你也可以秀 pheatmap|暴雨暂歇,“热图”来袭!!!

数据可视化——一文入门ggplot2

拜拜、爱过 提交于 2020-04-18 17:55:11
目录 0引言 1、函数包的安装与载入 2、数据的构造 3、映射和代码风格 4、添加几何对象 4.1添加单个几何对象 4.2 分类设置颜色、形状、大小 4.3设置整体的颜色形状大小 4.4添加多个几何对象 5、分层 6、总结 0引言 之前在 R语言分组画条形图 一文中使用过ggplot2包中的qplot函数,今天就简单介绍下ggplot2的语法风格和使用示例。ggplot2这个函数包是R语言的一款可视化包。他的作者是Hadley Wickham,RStudio首席科学家,美国莱斯大学统计学助理教授,毕业于爱荷华州立大学统计系。这个包具有独树一帜的画图风格:映射、分面、集合对象、统计变换、坐标系、图层等等众多系统的画图的风格。不吹不黑直接上干货,本文将会带领大家入门ggplot2,让大家设计出符合自己的数据的可视化作品。 1、函数包的安装与载入 我一般习惯的安装包 tidyverse ,里面函数有包: tidyverse、ggplot2、tidyr、readr、forcats 。下面是安装载入命令: # 包的安装 install.packages("tidyverse") library(tidyverse) # 加载画图包 -- Attaching packages ------------------------------------ tidyverse 1.3.0 -- √

如何实现一个以中国为中心的世界地图

落花浮王杯 提交于 2020-04-14 04:22:35
【今日推荐】:为什么一到面试就懵逼!>>> 最近屡屡有小伙伴为各种目的在询问有没有中国位于中心的世界地图。在某位同学的强烈要求下,我决定稍微记录下这个以我大中华为中心的世界地图的做法。 原始数据。 1 ArcGIS 第一种就简单介绍下ArcGIS平台上如何操作吧。 首先在ArcGIS软件中,右击Layers(图层)→Properties(属性)→Coordinate System(坐标系) 然后如图所示点击生成一个新的Projected Coordinate System(投影坐标系)。 按照如图所示设置。 并用Save As,导出一个.prj的投影文件。 接着用Arctoolbox的投影工具进行投影变换(我本身数据是WGS1984的地理坐标系)。 选择投影的时候可以直接import。 等待运行。 结果图。 如上,其实过程不复杂。最关键的这个使得中国能居于中间的原因是投影参数里面的第三个参数——Central Meridian,也就是中央经线。有兴趣还可以自行调整,我这里设150结果如上,也可以自行设定,只需要双击投影文件修改属性即可。 2 R 第二种介绍下R语言的方法。R语言做空间数据的这些处理最主要的两个包就是sp和rgdal。所以在处理前请先安装这两个包。 接下来直接进入正题。 我们需要先读入空间数据,然后对空间数据进行投影变换。 如何读空间数据就请点击前面我写过的文章, 戳

python数据分析学习(7)数据清洗与准备(1)

一曲冷凌霜 提交于 2020-04-13 12:01:03
【今日推荐】:为什么一到面试就懵逼!>>> 目录 一:处理缺失值 1. 过滤缺失值 二:补全缺失值   关于文件的读写方面先放一下,接下来介绍数据清洗方面的知识。有时候数据对于特定的任务来说格式并不正确,需要转化为更加适合的数据形式。这里介绍数据清洗的有关基础知识,本篇博客先介绍如何处理缺失值。 一:处理缺失值   缺失数据在很多数据分析应用中都出现过,对于数值型数据,pandas使用浮点值NaN来表示缺失值。可以用isnull()对一直数组逐元素进行操作,返回布尔型判断结果,返回缺失值,而notnull相反。   在pandas中,用R语言中的编程惯例,将缺失值成为NA(not available),表示不存在的数据或者是不可观察的数据。而python内建的None值在对象数组也被当作NA处理。   可以用fillna填充缺失的数据,或使用'ffill'和'bfill'插值方法。 1. 过滤缺失值   用dropna过滤缺失值是非常常见的,它会返回Series中所有的非空数据及其索引值,和data[data.notnull()]是等价的。如下:   当处理DataFrame时,会复杂一点,dropna默认情况下会删除包含缺失值的行:   当传入参数how='all'时,将删除所有值均为NA的行:   想要用同样的方法删除列,传入参数axis=1即可:  

多元统计分析R语言建模| 11 多维标度法MDS

痴心易碎 提交于 2020-04-13 00:28:14
定义:利用客体间相似性数据去解释它们之间的空间关系的统计分析方法 多维变量——二维三维空间表示,标度到低维空间上 种类: 度量化模型:相似性数据游距离、比例尺度测得 非度量化模型:顺序量表(有序)水平的相似数据 MDS的古典解 欧式型距离阵及其判定定理 距离矩阵构造A矩阵 *-0.5*d^2 B=(bij) 求B的特征根,若>=0,则说明B是欧式型距离矩阵,得到的特征根是古典解 Shepard-Kruskal算法 计算步骤: 确定研究目的 选择样品和变量 计算样品间的距离矩阵 分析样品间的距离矩阵 计算距离阵的古典解 检验模型的拟合效果 #美国十个城市间公路的距离阵 d12.1=read.table('clipboard',header = T) D=matrix(c(0,1,sqrt(3),2,sqrt(3),1,1, 1,0,1,sqrt(3),2,sqrt(3),1, sqrt(3),1,0,1,sqrt(3),2,1, 2,sqrt(3),1,0,1,sqrt(3),1, sqrt(3),2,sqrt(3),1,0,1,1, 1,sqrt(3),2,sqrt(3),1,0,1, 1,1,1,1,1,1,0),nrow=7,ncol=7) D cmdscale(D) round(cmdscale(D),3) #MDS的古典解,线性 d12.1 MDS1=cmdscale