数据分析

数据分析之Pandas学习笔记(三)

余生长醉 提交于 2019-12-10 16:45:58
数据分析之Pandas学习笔记(三)(统计) df.describe() 常用统计方法 相关系数、协方差 唯一化 计数(频率) df.describe() 数值型,一种结果 官方文档 describe参数详解,统计应用 分位数例子 df = pd . DataFrame ( np . arange ( 4 * 4 ) . reshape ( ( 4 , 4 ) ) , index = index_name , columns = columns_name , ) print ( df ) print ( '********************************************' ) print ( df . describe ( ) ) 比如对上述这样的,全部是数字的DataFrame,discribe()方法返回的结果为: count: 计数 mean: 平均值 std: 标准差 min: 最小值 25%: 25%分位数 50%: 50%分位数(中位数) 75%: 75%分位数 max: 最大值 非数值型,另一种结果 count: 非空数值 unique: 唯一值数 top: 频率最高者 freq: 最高频数 常用统计方法 mean std var cumsum cumprod diff quantile ... 相关系数、协方差 obj.corr() 相关系数

阿里云物联网平台产品架构与优势

爷,独闯天下 提交于 2019-12-10 07:49:20
产品架构: 设备连接物联网平台,与物联网平台进行数据通信。物联网平台可将设备数据流转到其他阿里云产品中进行存储和处理。这是构建物联网应用的基础。 IoT SDK 物联网平台提供IoT SDK,设备集成SDK后,即可安全接入物联网平台,使用设备管理、数据分析、数据流转等功能。 只有支持TCP/IP协议的设备可以集成IoT SDK。 具体请参考 设备端SDK开发指南 。 边缘计算 边缘计算能力允许您在最靠近设备的地方构建边缘计算节点,过滤清洗设备数据,并将处理后的数据上传至云平台。 IoT Hub IoT Hub帮助设备连接阿里云物联网平台服务,是设备与云端安全通信的数据通道。IoT Hub支持PUB/SUB与RRPC两种通信方式,其中PUB/SUB是基于Topic进行的消息路由。 IoT Hub具有下列特性: 高性能扩展:支持线性动态扩展,可以支撑十亿设备同时连接。 全链路加密:整个通信链路以RSA,AES加密,保证数据传输的安全。 消息实时到达:当设备与IoT Hub成功建立数据通道后,两者间将保持长连接,以减少握手时间,保证消息实时到达。 支持数据透传: IoT Hub支持将数据以二进制透传的方式传到自己的服务器上,不保存设备数据,从而保证数据的安全可控性。 支持多种通信模式:IoT Hub支持RRPC和PUB/SUB两种通信模式,以满足您在不同场景下的需求。

IBM 在华发布重大转型战略,认知商业引爆中国市场

折月煮酒 提交于 2019-12-10 06:46:16
IBM大中华区董事长陈黎明宣布IBM认知商业战略在中国正式落地 认知商业是继“智慧的地球”之后,IBM发布的又一次重大转型战略,它将引发堪比电子商务的又一次的商业变革大潮。 论坛上,IBM介绍了认知商业在中国的最新成果,包括与辉瑞中国、科大讯飞等本地伙伴的最新合作。 IBM大中华区董事长陈黎明表示:“ 认知时代已经开启 ,这对于中国的意义特别重大。在不久的将来,我们将能看到 整个商业模式由于认知技术的推动而发生巨大变化 ——小到每个人获得的服务和产品、创业者所能拥有的商业创新优势,大到传统企业行业的转型、甚至经济和整个社会治理效率的跨越式提升。我们坚信,认知商业是大势所趋。” 认知商业落地中国,携手伙伴智胜未来 论坛上,最受听众关注的是 IBM在中国认知商业领域的最新进展: 辉瑞中国医学部副总裁谷成明博士 IBM中国和辉瑞制药联合前沿医疗机构,利用大数据及以新型认知分析方法,建立了符合中国人群特征的慢性病风险预测模型,可高效甄别出关键风险因素,加速科研发现的进程。 借助此疾病风险预测模型与临床决策支持系统,医生预期可以大幅度提高诊疗质量,并针对病人的个体情况提出个性化诊疗建议,节约患者的医疗成本。这种模式的普及,将有助于提升社区医院的循证诊疗水平,从而缓解三甲医院的就诊压力,为推进中国分级诊疗,实现智能化医疗转型升级提供支持。 辉瑞中国医学部副总裁谷成明博士表示:“近年来

数据分析与可视化

放肆的年华 提交于 2019-12-10 03:31:36
泉州信息工程学院 软件学院 课程设计报告书 课 程 名 : Python 课程设计项目名称: 数据分析与可视化 团队成员: 吴清岚 吴梦云 一、项目简介 本项目采用 Numpy 、 Pandas 、 Matplotlib 等数据库,调用 bar() 方法对课程成绩表进行每个班级的总体平均成绩来绘制柱状图,调用 plot() 方法对大学学术排名表其中五个大学进行折线图的绘制,调用 p ie() 方法对课程成绩表绘制 饼图,运用 for 语句实现循环体对大学学术排名表中的美国籍 2018 年的大学进行排序,粗略的完成对课程成绩和大学学术排名的部分数据分析与可视化,让人们对 16 、 17 和 18 级网络班级课程成绩和世界大学学术排名有更加直观、深入的理解。在数据处理的过程中,使用图表、图形将数据的趋势差别相关性等关系展示出来,有助于人们对数据的理解与分析,特别对于一些高维度、高复杂度的数据,创建可视化图表对分析过程非常有益。此外,在展示数据结论时,清晰准确的图表或图形将是一种非常恰当的表达手段,“好的图表胜于千万的文字描述”。 1.1 项目博客地址 https://www.cnblogs.com/wql4024/ 1.2 项目完成的功能与特色 功能: 导入 Numpy 、 Pandas 、 Matplotlib 数据 库,调用 bar() 方法、调 用 plot() 方法、调用

数据分析之Pandas学习笔记(一)

天涯浪子 提交于 2019-12-10 01:57:01
数据分析之Pandas学习笔记(一)(入门) 创建一个简单的Series对象(一维) 创建一个简单的DataFrame对象(二维) 数据是否缺失(NaN) obj. head()看前几行(默认选取前5行) obj.tail()看倒数几行(默认选取倒数5行) 行列选取 选取某一列 选取某一行 选取多个行或者多个列obj.take( [ int , int ] , axis= ) 索引选取多个列 索引选取多个行 切片选取多个列 其他 obj.values可以将DataFrame对象转成ndarray对象 ndarray对象.tolist()可以转成list格式 del obj[' '] 只能删除列 索引,Index对象 创建一个简单的Series对象(一维) 我对Series对象的理解就是一个类似 只有一列数据的Excel表的一维数组 啊哈哈、因为我觉得它和numpy太相似,经常默认把numpy对象和series对象都叫series了 实际运用如果numpy对象也是一维的,也差不多就是这么回事,一个带索引,一个不带索引罢了 硬要计较Series对象和Numpy对象的区别。 我能想到的有以下几点: 1,type类型不同 2,Pandas包内置Numpy包,你在pip下载Pandas包的时候,它自动把Numpy包也给顺带下了 3,Series对象是Pandas包里的对象

数据分析1

折月煮酒 提交于 2019-12-09 21:08:56
数据分析: --数据是21世纪的石油 1.分析过程: 1.提出问题 2.收集数据 3.分析数据 numpy pandas 4.数据的展现 matplotlib(量小) 2.ipython的用法 安装:pip install ipython 3.jupyter notebook 1.命令行安装: 安装:pip install jupyter 启动:jupyter notebook 注:必须手动去安装数据分析包,比较麻烦 2.anaconda:软件安装 优点:包含了数据分析的基础,解决了一些包的依赖,非常方便 快捷键: 1.运行当前代码并选中下一个单元格 shift + enter 2.运行当前的单元格 ctrl + enter 绿色: 编辑模式 蓝色: 命令行模式 3.在单元格的上方添加一个单元格,点esc进入命令行模式,点击a (above)添加 4.在单元格的下方添加一个单元格,点esc进入命令行模式,点击b (below)添加 5.删除一个单元格,按esc进入命令行模式,接下来,按dd(delete) 删除 6.代码和markdown的切换,按esc进入命令行模式,接下来,按m切换 来源: https://www.cnblogs.com/wyf20190411-/p/12013375.html

如何通过店铺数据分析店铺异常原因?

故事扮演 提交于 2019-12-09 20:13:56
            分析店铺异常 ①先看店铺销量是否下降,销量下降需要从转化率、访客数方面考虑; ②转化率若下降的原因:差评是否置顶、流量来源看流量是否精准、是否涨价了; ③访客数若下降的原因:从流量来源看活动是否结束、推广力度是否下降、是否换了主图影响点击率从而影响流量; ④流量来源看流量是否精准可以从以下几个方面分析,手淘搜索流量转化率比较高,其它流量来源转化率相对而言比较低,所以看是不是搜索流量降低; ⑤流量来源可以看出产品是否参加活动,主图换了点击率是不是降低,可通过直通车查看点击率; ⑥若是店铺访客出现问题,若是手淘搜索流量下降,需查看是哪个关键词流量下降,分析出某关键词流量下降的话采取手段去整改。 来源: https://www.cnblogs.com/Vowzhou/p/12013124.html

在敏捷商业智能的风口,思维仍是最关键的风向标

我的未来我决定 提交于 2019-12-09 15:59:16
微软Power BI DIAD的活动已经持续了一年,在这里,我们非常感谢我们的客户、微软、还有Power BI中国社区给与我们的支持,同时我们也能感受到敏捷商业智能的风口已经到来,同学们也从“什么是Power BI”到“Power BI能做出什么样的分析”中得到了成长,我们也希望给同学们和读者一些回顾和分享。 总的来说,在敏捷商业智能的风口,思维仍是最关键的风向标。 思维一:什么才是Power BI正确的打开方式 Power BI的出现,让很多企业数据分析师和数据分析爱好者看到了惊喜,在充分展现了大家的想象力和创造力的同时,也产生了五花八门的问题: -“为什么我设计的仪表板有的图表之前不能互动,有的却可以互动” -“我想计算一个度量值,怎么写都不对,不知道是什么原因?” -“为什么同样的操作,你们的仪表板都没问题,我的就做不出来效果“ -“为什么我想用的图展示数据,就是展示不出来“ 在我们陆续帮大家解决完这些问题之后,我发现了问题所在:大家往往在网上自学了Power BI的课程后,就开始做仪表板了,却并不知道Power BI这些技能背后的意义。 Power BI的强大功能为我们提供了数据分析的无限想象,但只有理解了这些功能背后的数据分析逻辑,才能做出用最合理的图表表达分析的内容,而不是各种展现技能的堆砌。 思维二:不要为了做报表而做报表,分析才是仪表板的精髓

普通HR做半天的3种数据分析,学会这个,10分钟轻松搞定

家住魔仙堡 提交于 2019-12-09 12:53:49
人力资源部门作为企业必不可少的部门之一,每年经手的数据量之大、类型之多可想而知。特别是在如今信息爆发式增长的时代,海量数据沉淀的背后是亟待挖掘的数据宝藏。 然而目前大多数人力资源部门还在做传统的“体检型”数据分析,不管有用没用,所有数据来一遍图表,男女比例、学历构成、离职趋势等等,这些有一定价值,但都是泛泛之谈。 众多数据潮流淹没了那些“发光的金子”,真正的大数据分析要的是“治病型”,针对痛楚问题开展分析,利用数据找到病灶,充分发挥人力资源部门的价值。 “如何能把人力资源从成本中心变为为企业盈利部门,让各业务老大们视为自己人,是从业HR多年的我在思考与摸索的。”这是某制造企业的HRBP王同学的目标,并且为之展开了行动,但是现实中却发现诸多瓶颈: 海量数据无法高效处理? 造型企业日常管理中积累了大量数据,其中HR部门尤甚,如培训记录、出勤记录、加班记录、请假记录、招聘面试数据、绩效评价等,每月数据量达2万行; Excel可以满足部分数据分析,但数据达到一定量级后,很容易造成死机; 数据孤岛阻碍价值探索? 企业投入的诸多系统“各自为战”,同时还存在部门壁垒,形成了数据孤岛; 进行数据分析需要收集多个平台数据进行整理和数据清洗,耗时耗力; 无法实现数据串联,造成数据浪费,隐藏在数据中的价值未被发现,也难识别; 数据如何保证又快又准? 领导临时交代的分析任务,如离职率分析

数据分析实践入门(四):数据运算

巧了我就是萌 提交于 2019-12-09 12:49:21
作者 | CDA数据分析师 进行到这一步就可以开始正式的烹饪了。前面我们列举了不同纬度的分析指标,这一章我们主要看看这些指标都是怎么计算出来的。 一、算术运算 算术运算就是基本的加减乘除,在Excel或Python中数值类型的任意两列可以直接进行加、减、乘、除运算,而且是对应元素进行加、减、乘、除运算,Excel 中的算术运算比较简单,这里就不展开了,下面主要介绍Python中的算术运算。 列相加的具体实现如下所示。 两列相减的具体实现如下所示。 两列相乘的具体实现如下所示。 两列相除的具体实现如下所示。 任意一列加/减一个常数值,这一列中的所有值都加/减这个常数值,具体实现如下所示。 任意一列乘/除一个常数值,这一列中的所有值都乘/除这一常数值 二、比较运算 比较运算和Python基础知识中讲到的比较运算一致,也是常规的大于、等于、小于之类的,只不过这里的比较是在列与列之间进行的。常用的比较运算符见2.9.2节。 在Excel中列与列之间的比较运算和Python中的方法一致,例子如下图所示。 下面是一些Python中列与列之间比较的例子。 三、汇总运算 讲到的算术运算和比较运算都是在列与列之间进行的,运算结果是有多少行的值就会返回多少个结果,而汇总运算是将数据进行汇总返回一个汇总以后的结果值。 1、 count非空值计数 非空值计数就是计算某一个区域中非空(单元格)数值的个数。