数据分析

W49 - 999、外卖点餐数据分析

匿名 (未验证) 提交于 2019-12-02 23:42:01
版权声明:本文为博主原创文章,未经允许不得转载。 https://blog.csdn.net/weixin_42464054/article/details/91897944 0、外卖点餐数据分析 初学耗时:999h 注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。 ギ 舒适区ゾ ♂ 累觉无爱 ♀ W49系列、外卖点餐数据分析 W49 - 001: W49 - 002: W49 - 003: W49 - 004: W49 - 005: W49 - 006: W49 - 007: W49 - 008: W49 - 009: W49 - 010: W49 - 011: W49 - 012: W49 - 013: W49 - 014: W49 - 015: W49 - 016: W49 - 017: W49 - 018: W49 - 019: W49 - 020: W49 - 021: W49 - 022: W49 - 023: W49 - 024: W49 - 025: W49 - 026: W49 - 027: W49 - 028: W49 - 029: W49 - 030: W49 - 031: W49 - 032: W49 - 033: W49 - 034: W49 - 035: W49 - 036: 智力的核心是?抽象思维能力。 - - - - - -

使用SPSS进行商业数据分析

匿名 (未验证) 提交于 2019-12-02 23:42:01
SPSS是一款非常强大的数据处理软件,那么该如何用SPSS进行数据分析呢? 1. 什么是SPSS SPSS是社会统计科学软件包的简称, 其官方全称为IBM SPSS Statistics。SPSS软件包最初由SPSS Inc.于1968年推出,于2009年被IBM收购,主要运用于各领域数据的管理和统计分析。作为世界社会科学数据分析的标准,SPSS操作操作界面极其友好,结果输出界面也很美观,同时还配备十分详细的用户手册。 SPSS 的核心功能 数据编辑功能 可以通过SPSS的数据编辑功能,对数据进行增删改等处理,还可以根据需要对数据进行拆分、加权、排序、聚合等处理。 可视化功能 SPSS有很强大的绘图功能,可以根据模型自动输出描述性分析的统计图,反映不同变量间的内在关系;同时还可以由用户自定义统计图的基本属性,使数据分析报告更加美观。其中,基本图包括条形图、扇形图、饼图、柱状图、箱线图、直方图、P-P图、Q-Q图等。而它的交互图更加美观,包括条形交互图、带状交互图、箱形交互图、散点交互图等不同风格的2D及3D图。 表格编辑功能 用户可以使用SPSS绘制不同风格的表格,同时表格可以在查看器中编辑,也可以在专门的编辑窗口编辑。 联接其他软件 SPSS可以打开多种类型的数据文件, 其中包括Excel、Access、DaBase、文本编辑器、Lotus 1-2-3等等

Tableau

匿名 (未验证) 提交于 2019-12-02 23:34:01
1、概述 Tableau 作为当前最流行的可视化工具,已经连续6年在Gartner商业智能和分析平台魔力象限中获得“领先者”称号。Tableau不仅可以辅助业务用户及决策者深入洞察数据见解,快速发现数据间的逻辑和数据背后涵盖的价值和意义,提高决策质量,还可以为企业提供便捷易用的分析平台及全面有效的商业智能解决方案。目前国内包括如腾讯、京东、滴滴等大型电商平台都在使用Tableau进行数据分析、业务监测。目前企业中使用Tableau的主题人员包括有运营人员,数据分析师,业务管理人员,可视化工程师等。 本次课程将从Tableau Desktop入手,通过与行业亲密接轨的商业案例,带领大家洞悉Tableau商业智能数据分析工具在不同行业的不同业务当中的真实应用。我们将从仪表到仪表盘再到故事,详细讲述分析步骤和操作方式,教会大家如何通过简单的拖拽和简单的函数实现一副精美的可视化作品,同时领悟数据分析要点,发现数据中蕴含的规律及背后的商业价值。最初,大家可能会认为自己在学习一个商业智能数据分析工具,但随着课程的深入,大家会逐步的发现,我们实际上在学习一种数据分析思路,在建立一种运用Tableau这个高级商业智能与可视化工具进行数据分析的能力。 如果你是数据小白,通过本课程,你将会掌握一个主流且强势的商业智能分析工具,并初步建立数据分析的基本思路。当然

数据分析学习-第二课 matplotlib折线图(4-6节)

匿名 (未验证) 提交于 2019-12-02 23:32:01
第二课 matplotlib折线图(4-6节) 第04节matplotlib设置显示中文 正文: from matplotlib import pyplot as plt import random import matplotlib # 视频中的windows设置方法不可用,要设置下面两行才能显示中文 plt.rcParams[‘font.family’] = [‘sans-serif’] # 如果是在 PyCharm 里,只要下面一行,上面的一行可以删除 plt.rcParams[‘font.sans-serif’] = [‘SimHei’] x=range(0,120) y = [random.randint(20,35) for i in range(120)] plt.figure(figsize=(20,8),dpi=80) plt.plot(x,y) _xtick_labels = [‘10时{}分’.format(i) for i in range(60)] _xtick_labels += [‘11时{}分’.format(i) for i in range(60)] print(_xtick_labels ) plt.xticks(x[::3],_xtick_labels[::3],rotation=90) plt.yticks(range(min(y),max

测序数据分析之OTU

匿名 (未验证) 提交于 2019-12-02 23:03:14
1. OTU(Operational Taxonomic Units)操作分类单元:是在是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。在生物信息分析中,一般来说,测序得到的每一条序列来自一个菌。要了解一个样品测序结果中的菌种、菌属等数目信息,就需要对序列进行归类操作(cluster)。通过归类操作,将序列按照彼此的相似性分归为许多小组,一个小组就是一个OTU。通常按97%的相似度,对所有序列进行OTU划分并进行生物信息统计分析。 通常在97%的相似水平下聚类生成OTU,近期认为100%更合理。 选择每个聚类群众最高丰度序列作为代表性序列。 为什么需要OTU? 序列错误:PCR产生的错误;测序错误 菌内16S多样性 计算能力和算法限制,两两比较太耗时 优点:快速生成丰度矩阵 不足:只到属水平;菌和OTU无法对应;不同批次实验无法比较 2.扩增子实验和分析流程 文章来源: 测序数据分析之OTU

hive 数据分析 窗口函数

匿名 (未验证) 提交于 2019-12-02 23:03:14
1. 端上跨节点漏斗 2. 窗口函数 详情 , 例子 每行新增部门平均数: SELECT depname, empno, salary, avg(salary) OVER (PARTITION BY depname) FROM empsalary; depname | empno | salary | avg -----------+-------+--------+----------------------- develop | 11 | 5200 | 5020.0000000000000000 develop | 7 | 4200 | 5020.0000000000000000 develop | 9 | 4500 | 5020.0000000000000000 develop | 8 | 6000 | 5020.0000000000000000 develop | 10 | 5200 | 5020.0000000000000000 personnel | 5 | 3500 | 3700.0000000000000000 personnel | 2 | 3900 | 3700.0000000000000000 sales | 3 | 4800 | 4866.6666666666666667 sales | 1 | 5000 | 4866.6666666666666667

使用docker搭建数据分析环境

匿名 (未验证) 提交于 2019-12-02 23:00:14
使用docker搭建数据分析环境 注:早在学习《云计算》这门课之前就已经知道docker,学习这门课时老师还鼓励我们自己尝试一下;但是直到去年年底才有机会尝试,用过之后感觉确实很好用。最近需要部署几个shiny应用,又回顾了一下,并记录与此。 1. 初识docker 最开始听说docker,就知道可以使用docker来部署应用,相对于之前在主机上直接安装应用所需的运行环境,docker要方便的多。对于我这样时不时被开发环境搞的怀疑人生的半个开发人员,自然会对这样神奇的工具有所关注,只是一直没有找到机会尝试。直到去年年底,为了部署一个Django应用,终于有机会尝试了一下。有以下几点认识: 与虚拟机相比,docker是操作系统级别的虚拟化,与host共享了很多系统资源。因此docker比虚拟机更轻量级,运行的时候启动速度更快,开销也更小; 虚拟机可以安装桌面,但是docker部署的应用一般通过"IP+端口"的方式来访问; docker以image(镜像)为基础,应用程序运行在基于特定image开启的container(容器)上; 如果多个程序使用同一个image来开启不同的container,这些container共享该image而不需要复制多个; 一个image可以是一个完整的操作系统(例如Ubuntu的官方镜像,大小为2G左右),也可以只是满足某个应用程序运行的基本环境

Python数据分析三剑客之一 :Pandas工具库

≯℡__Kan透↙ 提交于 2019-12-02 23:00:13
Python 数据清洗与处理 Pandas是基于Numpy构建的库,在数据处理方面可以把它理解为numpy加强版,同时Pandas也是一项开源项目 。 不同于Numpy的是,Pandas拥有种数据结构:Series 一维数据、DataFrame 二维数据(表格) head() #默认前10行数据 tail() #默认后10 行数据 一、清除数据 1、用数字0填充空值: df.fillna(value=0) 2、使用列prince的均值对NA进行填充: df[‘prince’].fillna(df[‘prince’].mean()) 3、清楚city字段的字符空格: df[‘city’]=df[‘city’].map(str.strip) 4、大小写转换: df[‘city’]=df[‘city’].str.lower() 5、更改数据格式: df[‘price’].astype(‘int’) 6、更改列名称: df.rename(columns={‘category’: ‘category-size’}) 7、删除后出现的重复值: df[‘city’].drop_duplicates() 8 、删除先出现的重复值: df[‘city’].drop_duplicates(keep=‘last’) 9、数据替换: df[‘city’].replace(‘sh’, ‘shanghai’)

python数据分析实战-第2章-ptyhon世界简介

匿名 (未验证) 提交于 2019-12-02 22:56:40
第2章 Python世界简介  12 2.1 Python――编程语言  12 2.2 Python――解释器  13 2.2.1 Cython  14 2.2.2 Jython  14 2.2.3 PyPy  14 2.3 Python 2和Python 3  14 2.4 安装Python  15 2.5 Python发行版  15 2.5.1 Anaconda  15 2.5.2 Enthought Canopy  16 2.5.3 Python(x,y)  17 2.6 使用Python  17 2.6.1 Python shell  17 2.6.2 运行完整的Python程序  17 2.6.3 使用IDE编写代码  18 2.6.4 跟Python交互  18 2.7 编写Python代码  18 2.7.1 数学运算  18 1 2 3 4 5 6 7 8 9 10 11 12 13 >>> 1 + 2 3 >>> (1.045 * 3)/4 0.78375 >>> 4 ** 2 16 >>> ((4 + 5j) * (2 + 3j)) (-7+22j) >>> 4 < (2*3) True >>> a = 12 * 3.4 >>> a 40.8 2.7.2 导入新的库和函数  19 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

数据分析之pandas常见的数据处理(四)

匿名 (未验证) 提交于 2019-12-02 22:56:40
方法 说明 count 计数 describe 给出各列的常用统计量 min,max 最大最小值 argmin,argmax 最大最小值的索引位置(整数) idxmin,idxmax 最大最小值的索引值 quantile 计算样本分位数 sum,mean 对列求和,均值 mediam 中位数 mad 根据平均值计算平均绝对离差 var,std 方差,标准差 skew 偏度(三阶矩) Kurt 峰度(四阶矩) cumsum 累积和 Cummins,cummax 累计组大致和累计最小值 cumprod 累计积 diff 一阶差分 pct_change 计算百分数变化 df[df.isnull()] #判断是够是Nan,None返回的是个true或false的Series对象 df[df.notnull()] #dropna(): 过滤丢失数据 #df3.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) df.dropna() #将所有含有nan项的row删除 df.dropna(axis=1,thresh=3) #将在列的方向上三个为NaN的项删除 df.dropna(how='ALL') #将全部项都是nan的row删除 df.dropna()与data[data.notnull()] #效果一致