数据分析

数据分析这碗汤

元气小坏坏 提交于 2019-11-26 17:09:38
从接触数据分析到现在这短短的几年时间里,总是会听到周围有朋友问我“你做的数据分析到底是什么”。 数据分析是什么 对于数据分析的工具来说,那真的算得上是“琳琅满目”。对于很多做数据分析的人来说,可能都会使用到EXCEL、SPSS、STATA、AMOS、EVIEWS、MATLAB、SAS、PYTHON、R等等一系列比较常见的数据分析工具,每一个工具都有他独到的地方,不同行业的人会选择适合他们自己的数据分析工具,而不是只要能做数据分析,管他三七二十一,直接拿来就用。这是数据分析的一个特别需要注意的地方。 五个手指有长有短 数据工具是一个大池子,我们需要从里面选择适合我们的工具并且熟练掌握,同时我们可能还需要搭配数据库一起,这样才能发挥他最大的威力。 EXCEL是最常见的一个数据分析工具,只要是做数据分析的人不可能不知道它。在刚开始接触并处理数据的时候,EXCEL的表格是公认最方便、最容易上手的一个工具(EXCEL可是一个超级强大的工具),但是如果你的数据量特别大,那就需要用到数据库,这个咱们后面再谈。在EXCEL以外,很多的工具都能够直接读取EXCEL里面已经处理完的数据直接进行分析判断。在EXCEL里面有一个数据分析的模块,有的OFFICE可能没有启用,就需要咱们从加载项里面把它调用出来以后才能开始使用,在这个加载项里面,已经可以做一些像描述统计、相关系数、方差分析

苏宁人工智能研发中心智能创意平台架构成长之路(二)--大数据架构篇

旧街凉风 提交于 2019-11-26 16:52:20
苏宁人工智能研发中心智能创意平台架构成长之路(一)--长篇开篇 https://www.cnblogs.com/laoqing/p/11326132.html 我们接着第一篇继续。 (这是第二篇大数据架构篇,成长之路序列会包含多篇,笔者作为这个平台的架构兼技术经理,充分讲述其中的迭代心酸之路以及中间遇到的问题和解决方案) 声明:文章不涉及公司内部技术资料的外泄,涉及的图片都是重画的简易架构图,主要通过架构的演进,讲述分享技术的迭代之路和过程。 在第二轮迭代完成后,第三轮迭代中,我们就开始做平台的数据分析了,这里我们以工作台数据分析为例,讲解平台如何采用大数据的方式来进行数据分析。 工作台中,需要做数据分析,比如平台合成出来的banner图被用户的点击次数,banner图合成出来后,被用户下载的数据,工作台中的PV/UV情况等。 在此轮设计中,我们直接用的大数据解决方案,并没有在一开始使用关系型数据来做这样的数据分析统计,架构方案如下,我们选用了Druid来做数据存储,以OLAP的方式来做数据分析,Druid.io(以下简称Druid)是面向海量数据的、用于实时查询与分析的OLAP存储系统。Druid的四大关键特性总结如下: 1)、亚秒级的OLAP查询分析,Druid采用了列式存储、倒排索引、位图索引等关键技术,能够在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作。 2)

大数据以及大数据技术都包括哪些内容

生来就可爱ヽ(ⅴ<●) 提交于 2019-11-26 16:13:58
大数据经过多年的发展,目前在概念上已经有了更多的含义,从不同的角度来看待大数据也会有不同的定义,但是总的来说,大数据可以用三个方面来进行概括,其一是“新的价值领域”;其二是“数据价值化”;其三是“产业互联网的基础”。 大数据之所以受到了广泛的关注,一个重要的原因就是大数据开辟了新的价值领域,这一点是非常关键的。新的价值领域就会打造一系列生态体系,而生态体系又会孕育出大量不同的商业模式,而这个过程也会伴随着大量的创新,所以当前基于大数据的创业项目也非常多。大数据让互联网(物联网)上源源不断的数据拥有了价值,让整个社会对于互联网有了新的认知。 大数据技术主要围绕“数据价值化”这个核心来展开,涉及到数据采集、数据整理、数据存储、数据安全、数据分析、数据呈现和数据应用等技术。数据采集技术涉及到物联网技术,实际上物联网也是大数据主要的数据来源,所以大数据与物联网的关系也非常密切,也可以说没有物联网的发展就不会有大数据。 如果你想要学好大数据最好加入一个好的学习环境,可以来这个Q群251956502 这样大家学习的话就比较方便,还能够共同交流和分享资料 数据整理技术最常见的就是数据清洗,常规的数据清洗技术涉及到正则表达式和Sql语言的运用,以及根据具体的业务规则对于数据的合理性、真实性和完整性进行甄别。数据存储技术主要涉及到数据库技术,既包括Sql数据库也包括NoSql数据库。

《Python数据分析学习笔记》系列之概念篇--你为什么需要数据分析能力

只愿长相守 提交于 2019-11-26 14:49:32
如何从海量的数据中找到关联关系,以及如何进行价值挖掘。 例一:通过数据分析,我们可以更好地了解用户画像,为企业做留存率、流失率等指标分析,进而精细化产品运营。 例二:如果你管制比特币,数据分析可以帮助你预测比特币的走势。 例三:面对生活中遇到的种种麻烦,数据分析也可以提供解决方案,比如信用卡反欺诈,自动屏蔽垃圾邮件等。 学习数据分析的高效方法—MAS方法。   Multi-Dimension: 想要掌握一个事物,就要从多个角度去认识它。   Ask: 不懂就问,程序员大多都很羞涩,突破这一点,不懂就问最重要。   Sharing: 最好的学习方法就是分享。用自己的语言讲出来,是对知识的进一步梳理。 学习数据分析收获:   1.数据和算法思维   2.数据处理工具   3.更好的工作机会和价值 来源: https://www.cnblogs.com/SnailDeveloper/p/11324546.html

零基础入门Python数据分析,只需要看懂这一张图

一世执手 提交于 2019-11-26 13:22:09
摘要 在做数据分析的过程中,经常会想数据分析到底是什么?为什么要做数据数据分析?数据分析到底该怎么做?等这些问题。对于这些问题,一开始也只是有个很笼统的认识。 最近这两天,读了一下早就被很多人推荐的《谁说菜鸟不会数据分析》这本书。发现对这些问题讲的还是比较透彻,随后对这本书的核心内容做了一个笔记。 说明:笔记主要以思维导图的方式呈现。 目录 一、数据分析概述 数据分析指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。 二、确定分析目的和思路 主要讲数据分析的方法论,如何利用管理学、营销学等知识从宏观上指导数据分析的过程,为的是明确分析的目的和思路,以免南辕北辙,分析了很久却不能解决要面临的问题。 其中PEST用于对行业的宏观环境分析,5W2H可以用于用户的行为、业务问题分析、逻辑树可以将某业务问题拆分为子问题进行专题分析、4P是一种营销理论,用来信进行公司产品的运营情况分析、用户行为分析可以用来分析各级指标之间的逻辑关系。 三、如何准备数据 “巧妇难为无米之炊”。数据就好比谚语中的米。做为数据分析师更是应该知道“米”的两个方面。第一:“米的构造”「理解数据」,第二“米”从哪里「数据来源」。 四、数据预处理 在做数据分析之前需要将数据清洗、加工、转换等一些步骤以使得数据成为可以用于建模分析的规整数据。 五

python数据分析的几个基本库

痞子三分冷 提交于 2019-11-26 13:21:31
#数据科学领域五个最佳Python库 #Numpy/Scipy/Pandas/Matplotlib/Scikit-learn #Numpy #N维数组(矩阵),快速高效,矢量数学运算 #高效的Index,不需要循环 #开源免费跨平台,运行效率足以和C/Matlab媲美 #Scipy #依赖于numpy #专为科学和工程设计 #实现了多种常用科学计算:线性代数,傅里叶转换,信号和图像处理 #Pandas #机构化数据分析利器(依赖numpy) #提供了多种高级数据结构:Time-Series,DataFrame,Panel #强大的数据索引和处理能力 #Matplotlib #Python 2D绘图领域使用最广泛的套件 #基本能取代Matlab的绘图功能(散点,曲线,柱形等) #通过mplot3d可以绘制精美的3D图 #Scikit-learn #机器学习的Python模块 #建立在Scipy之上,提供了常用的机器学习算法:聚类,回归 #简单易学的API接口 ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载! ''' 来源: https://blog.csdn.net/fei347795790/article/details/98874172

Python数据分析之pandas学习

☆樱花仙子☆ 提交于 2019-11-26 12:58:42
Python中的pandas模块进行数据分析。 接下来pandas介绍中将学习到如下8块内容: 1、数据结构简介:DataFrame和Series 2、数据索引index 3、利用pandas查询数据 4、利用pandas的DataFrames进行统计分析 5、利用pandas实现SQL操作 6、利用pandas进行缺失值的处理 7、利用pandas实现Excel的数据透视表功能 8、多层索引的使用 一、数据结构介绍 在pandas中有两类非常重要的数据结构,即序列Series和数据框DataFrame。Series类似于numpy中的一维数组,除了通吃一维数组可用的函数或方法,而且其可通过索引标签的方式获取数据,还具有索引的自动对齐功能;DataFrame类似于numpy中的二维数组,同样可以通用numpy数组的函数和方法,而且还具有其他灵活应用,后续会介绍到。 1、Series的创建 序列的创建主要有三种方式: 1)通过一维数组创建序列 importnumpyasnp,pandasas pd arr1=np.arange(10) arr1 type(arr1) s1=pd.Series(arr1) s1 type(s1) 2)通过字典的方式创建序列 dic1={‘a’:10,‘b’:20,‘c’:30,‘d’:40,‘e’:50} dic1 type(dic1) s2=pd

数据分析之pandas基本使用(DataFrame系列)

余生颓废 提交于 2019-11-26 12:25:13
一、安装pandas pip install pandas 二、数据结构 pandas有两种数据结构,这里篇幅主要讲述DataFrame。 DataFrame相当于一种二维的数据模型,相当于excel表格中的数据,有横竖两种坐标,横轴很 Series 一样使用index,竖轴用columns 来确定,在建立 DataFrame 对象的时候,需要确定三个元素:数据,横轴,竖轴。 三、DataFrame基本使用 1 创建DataFrame数据   创建不是我们本次的重点,我们所直接使用下列读取现有表的方法 2 读取excel/csv,读取到的数据在DataFrame具柄中进行处理 # 读取test.xls,并指定sheet df = pd.DataFrame(pd.read_excel('test.xls',sheet_name='detail')) 3 抽取指定列名赋值给need_df # 指定列名,将这一列赋值到package_num_df 这个具柄,并打印结果 need_df = df[['工厂','仓库','捆包号','树种','规格','账面数量','账面米数']] print(need_df) 4 在need_df的dataframe中筛选[捆包号]=J-0001-04,并打印结果 find_need_df = need_df.loc[need_df['捆包号'] ==

Jupyter在美团民宿的应用实践

回眸只為那壹抹淺笑 提交于 2019-11-26 11:01:40
总第370篇 2019年 第48篇 美团民宿是美团旗下的民宿预定平台,专注为旅行者提供个性化民宿住宿体验,让年轻人“住得不一样”。本文将分享美团民宿团队的「Kaggle Kernels」——一个平台化的Jupyter,接入了大数据和分布式计算集群,主要用于业务数据分析和算法开发。希望本文的分享能为有同样需求的读者带来一些启发。 前言 做算法的同学对于Kaggle应该都不陌生,除了举办算法挑战赛以外,它还提供了一个学习、练习数据分析和算法开发的平台。Kaggle提供了Kaggle Kernels,方便用户进行数据分析以及经验分享。在Kaggle Kernels中,你可以Fork别人分享的结果进行复现或者进一步分析,也可以新建一个Kernel进行数据分析和算法开发。Kaggle Kernels还提供了一个配置好的环境,以及比赛的数据集,帮你从配置本地环境中解放出来。Kaggle Kernels提供给你的是一个运行在浏览器中的Jupyter,你可以在上面进行交互式的执行代码、探索数据、训练模型等等。更多关于Kaggle Kernels的使用方法可以参考 Introduction to Kaggle Kernels ,这里不再多做阐述。 对于比赛类的任务,使用Kaggle Kernels非常方便,但我们平时的主要任务还是集中在分析、处理业务数据的层面,这些数据通常比较机密并且数量巨大

为什么你成不了数据分析高手?可能是缺少这个思维

徘徊边缘 提交于 2019-11-26 10:29:30
在讲前三章基础思维的时候,有读者反映文章过于理论,没有实际的操作讲解,那么今天我就在讲解数据思维的同时也会附上案例教程,以供大家参考学习。 话不多说,我们今天要讲的是 矩阵思维 ,其实矩阵思维不仅仅是用在数据分析领域,在财务、业务、销售、自媒体甚至生活中都有很广泛的应用,比如我们经常听到的自媒体矩阵、线下实体矩阵、流量矩阵等等,甚至有可能在你小区卖早点的都会搞营销矩阵。 比如说,安索夫矩阵思维,根据产品和市场将思维分为四种: 市场渗透、市场开发、产品延伸、多元化经营 。这不仅可以应用在企业经营上,更可以套用在个人的职业发展上,比如: 市场渗透:.吃透数据分析,让自己成为公司的数据分析专家 产品延伸:你的数据分析能力被别的产品小组发现了,也请你为他们做数据分析 市场开发:你在数据分析技能不断长进的同时,还掌握了行为设计 多角化:你的数据分析和行为设计能力达到了业界认可,有外企邀请你为他们做指导 其实,在百度百科中,矩阵更多是一种数学概念,而在数据分析中,它更多的是代表一种营销思维。有的人用它来设计产品,推行多元化品牌;有的人用它来聚集流量,占领细分市场。除了安索夫矩阵,今天我要介绍的则是数据分析中另一个十分常用的模型——波士顿矩阵。 一、什么是波士顿矩阵? 波士顿矩阵也已经是老生常谈了,具体的定义我们也不用太过钻研,我们只要明白波士顿矩阵关注的核心就是两个维度——