数据分析

数据分析 - 基础理论 - 描述统计学

可紊 提交于 2019-12-02 06:04:58
数据类型 数据数据一般是可以直接加载运算的数据, 一般是整形浮点型等 分类数据则为文本数据, 比如男女, 雌雄等 分类数据描述统计 数值数据描述统计 平均数, 中位数, 众数 平均数 - 求和均分 - 较为适合再数据平稳的样本中 中位数 - 最中间的数值 - 目的查看最中间的数据 众数 - 最多的数值 - 目的查看构成最多的数据 平均数和中位数可以联动分析   平均数比中位数大的话说明 极大数据量或者较大数据量比较集中, 数据向上偏移   平均数比中位数小的话说明 极小数据量或者较小数据量比较集中, 数据向下偏移 中位数 中位数可以四等分, 10等分, 百等分等等 最中间的中位数就是普通的中位数 方差, 标准差 用于描述数值的离散程度, 公式计算如下 方差的单位是平方 因此这里引入标准差, 对方差开根号, 从而可以得出的现实意义是 大部分的数据波动再 平均值附近 +- 标准查的上下限, 从而得出一个理论上的阈值 描述上更喜欢用标准查来更好的贴合业务 数据标准化 Z-Score x i 每组数据的具体值, u 平均值, σ 标准差。 Z x 标准化后的结果 不同数量级不同纬度的数据是没办法一起对比的 因此需要对数据进行统一格式, 或者压缩格式标准化处理 标准化后的数值会在 0-1 之间上下波动, 从而反应原始数据的一个特征 权重预估 数据标准化时可以加入权重, 比如 (3 x a +

【职问 数据分析】

纵然是瞬间 提交于 2019-12-02 05:32:30
一、统计学知识 均值、中值、众数、最大最小值、方差、标准差 1、 正态分布 2、相关 如图,Y轴和X轴存在相关性,X越大,Y越大。 因此花粉数量和防晒霜销量呈正相关 3、 回归 二、Excel Vlookup 三、数据库 文本类型 数值类型 日期类型 1、创建、调整、删除表 #生成数据表结构 create table users( user_id int primary key, name varchar(20), age int, city varchar(20), state varchar(20), monthly_active int ); #描述表结构 describe users; #删除表 drop table users; #再次创建表:1、主键放最后声明;2、加上name非空、city唯一的限制;3、设置city缺省值 create table users( user_id int, name varchar(20) not null, age int, city varchar(20) unique default 'unknown', state varchar(20), monthly_active int, primary key(user_id) ); #调整数据表:增加字段、删除字段 alter table users add gender char

8个Python高效数据分析的技巧

天大地大妈咪最大 提交于 2019-12-02 05:28:37
一行代码定义List 定义某种列表时,写For 循环过于麻烦,幸运的是,Python有一种内置的方法可以在一行代码中解决这个问题。 下面是使用For循环创建列表和用一行代码创建列表的对比。 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。 很多已经做案例的人,却不知道如何去学习更加高深的知识。 那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码! QQ群:127341871 x = [1,2,3,4] out = [] for item in x: out.append(item**2) print(out) [1, 4, 9, 16] # vs. x = [1,2,3,4] out = [item**2 for item in x] print(out) [1, 4, 9, 16] Lambda表达式 厌倦了定义用不了几次的函数?Lambda表达式是你的救星!Lambda表达式用于在Python中创建小型,一次性和匿名函数对象。它能替你创建一个函数。 lambda表达式的基本语法是: lambda arguments: expression 请注意,只要有一个lambda表达式,就可以完成常规函数可以执行的任何操作。你可以从下面的例子中,感受lambda表达式的强大功能: double = lambda x: x *

数据分析资料汇总

一笑奈何 提交于 2019-12-02 04:45:36
最全数据分析资料汇总(含python、爬虫、数据库、大数据、tableau、统计学等) 一、Python基础 Python简明教程(Python3) Python3.7.4官方中文文档 Python标准库中文版 廖雪峰 Python 3 中文教程 Python 3.3 官方教程中文版 Python3 Cookbook 中文版 笨办法学 Python ( PDF EPUB ) 《Think Python 2e》最新版中文 Python 核心编程 第二版 中文 菜鸟教程 Python3基础 W3cschool Python3基础 Python最佳实践指南 Python 精要教程 Python进阶 中文版 中文 Python 笔记 莫烦python教程 The Hitchhiker's Guide to Python 草根学 Python Python从入门到精通教程 视频(600集) Kaggle Python基础学习(英文) 李笑来-自学是门手艺-python教程 二、Python资源 [Python中文开发者社区] Python 资源大全中文版 Python-100天从新手到大师(github) GitHub上入门开发项目汇总(含Python) Python面试题-1 Python面试题-2 Python面试题-3 Awesome Python Applications

利用Python进行数据分析 第6章 数据加载、存储与文件格式(2)

半世苍凉 提交于 2019-12-02 04:40:25
6.2 二进制数据格式 实现数据的高效二进制格式存储最简单的办法之一,是使用Python内置的pickle序列化。 pandas对象都有一个用于将数据以pickle格式保存到磁盘上的to_pickle方法: 通过pickle直接读取被pickle化的数据,或使用更为方便的pandas.read_pickle: Ps:pickle仅建议用于短期存储格式。因其很难保证该格式是永远稳定的。 pandas内置支持两个二进制数据格式:HDF5和MessagePack。pandas或Numpy数据的其他存储格式有: bcolz:一种可压缩的列存储二进制格式,基于Blosc压缩库 Feather:跨语言的列存储文件格式。其使用了Apache Arrow的列式内存格式。 6.2.1 使用HDF5格式 HDF5是一种存储大规模科学数组数据的非常好的文件格式。它可被作为C标准库,带有许多语言的接口,如Java、Python和Matlab等。 HDF5中的HDF指的是层次型数据格式。每个HDF5文件都含有一个文件系统式的节点结构,使得能够存储多个数据集并支持元数据。 相较其他简单格式,HDF5支持多种压缩器的即时压缩,还能更高效地存储重复模式数据。对于非常大地无法直接放入内存的数据,HDF5可以高效地分块读写。 pandas提供地高级接口HDFStore类,可以像字典一样处理低级的细节

hadoop初体验

瘦欲@ 提交于 2019-12-02 03:20:34
今日课程内容大纲 01) hadoop的简介 02) hadoop集群的搭建 发行版本 集群规划 hadoop源码编译(了解) hadoop集群搭建 03) hadoop集群启动与初体验 04) MapReduce的历史记录 05) HDFS的垃圾桶机制 01--Apache Hadoop--介绍和发展历程 01) hadoop的介绍 00) hadoop1.x和hadoop2.x的区别: yarn(资源管理) 解决了单点故障问题 提高资源的利用率 01) 狭义解释:特指Apache的一款java语言开发的开源软件,由一下三部分组成: HDFS: 解决海量数据存储的hadoop分布式文件系统 MapReduce: 解决海量数据分布式计算问题 YARN: 解决分布式架构中资源管理和任务调度 02) 广义解释:整个基于hadoop的生态系统,包括大数据处理流程中的各个阶段的软件 hive hbase zookeeper oozie sqoop flume impala storm spark flink kylin...... 02) hadoop发展历史 01) hadoop的创始人doug cutting lucene(海量数据搜索) -----> nutch (海量数据抓取)-----> 海量数据存储和海量数据计算问题? 参考: https://www.linkedin.com

大数据导论

吃可爱长大的小学妹 提交于 2019-12-02 03:18:07
01-大数据导读  01) javaEE与大数据的区别(参考:附件资料\JavaEE大数据区别.txt) 01) javaEE业务开发(品优购电商) 电商系统架构.png 02) 大数据的体系说明(抖音推荐系统 电商精准推荐系统) 大数据架构处理流程.jpg 02) 大数据学习的建议: 01) 理解框架的功能和使用场景 02) 熟练使用(集群安装 编程开发 API使用 问题解决) 03) 框架内部的运行机制(原理) 04) 分析源码(验证运行原理) 05) 给开源贡献代码: apache committer : fink github 02-大数据离线课程介绍 01) 围绕hadoop生态圈 02) 围绕大数据处理主线 01) 数据采集 02) 数据存储 03) 数据预处理 04) 数据分析(数据仓库hive) 05) 数据应用 03) 学习技术路线: 01) hadoop中的HDFS(分布式文件存储系统) 02) hadoop中的MapReduce(分布式计算框架) 03) hive (使用sql进行数据分析的数据仓库) hbase(基于hadoop的分布式数据库) zookeeper(大数据中的基础组件,分布式协调服务) 04) 离线项目--电商网站日志分析系统: 05) 离线辅助工具集(flume sqoop oozie azkaban等技术) 06) spark基于内存计算

数据分析(一)

落爺英雄遲暮 提交于 2019-12-02 02:53:42
数据分析编写代码工具: pip3 install ipython 方式一:安装jupyter notebook: pip3 install jupyter notebook jupyter notebook 方式二:安装anaconda软件: 集成了300个数据分析模块,包含numpy,pandas,matplotlib等 在notebook中安装库,只需加个! !pip3 install tushare 来源: https://www.cnblogs.com/sima-3/p/11727283.html

《Python数据科学手册》高清中文带标签PDF版本下载学习

倾然丶 夕夏残阳落幕 提交于 2019-12-02 00:25:58
最近系统地学习了一下利用Python进行数据分析和挖掘的一系列方法。包括必不可少的numpy、pandas、matplotlib等库。发现一本书《Python数据科学手册》。该书详细及细致地分析了这三个主流数据分析挖掘及可视化模块的知识点,我发现一个可以下载该书的链接,现在贴出来。 百度云盘PDF版链接:https://pan.baidu.com/s/1j2yRWzOqx3wwzVeM56BFfw 本书一共分为五章,清晰明了,其中: 第一章:综述Python 第二章:Numpy入门 第三章:Pandas数据处理 第四章:Matplotlib数据可视化 第五章:系统讲解机器学习算法 本书讲解知识点丰富,覆盖全面,包括数据分析一系列方法,还重点讲解了机器学习。并且十分详细,非常适合做数据科学的人士掌握这个知识,让我们一起来学习这本不错的书籍吧。 来源: https://www.cnblogs.com/pfm-cnblogs1/p/11723077.html

粗糙的学习计划

╄→尐↘猪︶ㄣ 提交于 2019-12-01 19:37:43
1. 最近买了经典的《python从入门到实践》,之前有过一个月的学习基础,希望能够在2-3周内完成这本书的学习(希望不要打脸),完成入门的基础学习。 2.在知乎上面看到了一个学习网站:廖雪峰教程https://www.liaoxuefeng.com/wiki/1016959663602400 黑马程序员http://yun.itheima.com/course/c27.html?mcgzh 3.入门结束后的进阶,《利用python进行数据分析》里面的pandas、numpy库。 4.另外,了解的方向未来可能的方向:爬虫《python32网络爬虫开发实践》,数据分析(这也是我更想去做的方向) 5.另外关于SQL是否也是比较重要?? 小白一脸懵啊。 来源: https://www.cnblogs.com/dujun1996/p/11714873.html