数据分析

个人学习python数据分析基础的小小复盘

纵然是瞬间 提交于 2019-11-30 18:22:28
python数据分析基础个人复盘 本博客是个人学习python数据分析基础的小小复盘,记录学习途中翻查的各种资料,有助后期的翻阅回顾 视频资料 嵩天教授的python数据分析课程 个人关于此教程笔记的几篇关于numpy、matplotlib、pandas入门的博客 : 小坨博客入口 泰迪云课堂的python数据分析基础 文档资料 菜鸟教程numpy教程 菜鸟教程matplotlib教程 pandas官方中文文档(翻译中) pandas官方十分钟入门pandas中文译文 查找资料收藏的一些博客文章 几个重要的ndarray对象属性 numpy.stack 与 numpy.concatenate 用法 关于python中numpy.argpartition函数的个人理解 一分钟看懂Python中Numpy.nonzero()函数 Latex常用的数学符号表示 【Python学习笔记】调整matplotlib的图例legend的位置 Python学习笔记(4)— Matplotlib中annotate(注解)的用法 《Python数据分析常用手册》一、NumPy和Pandas篇 python-pandas 时间日期的处理(下篇) Python-Pandas 学习 数据中对时间的操作 pandas数据合并与重塑(pd.concat篇) Pandas拼接操作(concat,merge

Python数据分析与挖掘实战总结

十年热恋 提交于 2019-11-30 18:22:10
Python数据分析与挖掘实战 第三章 数据探索 3.1 数据质量分析 3.1.1 缺失值分析 3.1.2 异常值分析 3.2 数据特征分析 3.2.1 统计量分析 3.2.2 贡献度分析 3.2.3 相关性分析 3.2.4 统计特征函数 3.2.5 绘图函数 第四章 数据预处理 4.1 数据清洗 4.1.1 缺失值处理 4.2 数据变换 4.1.1 数据归一化 4.1.2 数据离散化(聚类) 4.3 属性改造 4.4 数据规约 4.5 常用预处理函数 第五章 挖掘建模 第三章 数据探索 3.1 数据质量分析 3.1.1 缺失值分析 缺失值的处理分为三种情况: 删除存在缺失值的记录; 对可能的数据进行插值:拉格朗日插值,牛顿插值法: 3.1.2 异常值分析 首先可以先使用describe()函数查看数据的基本情况: import pandas as pd # 餐饮数据 catering_sale = './data/catering_sale.xls' # 读取数据,指定日期列为索引列 data = pd.read_excel(catering_sale,index_col=u'日期') data.describe() 检测异常值的方法可以使用箱型图: import pandas as pd catering_sale = './data/catering_sale.xls'

用python进行数据分析:记录(一)

我的未来我决定 提交于 2019-11-30 18:21:54
python数据分析记录 用python进行数据分析:记录(一) 主要记录一些语法语句的使用 Seaborn的joinplot图无法显示pearson相关系数 如何让sns.joinplot显示pearson相关系数: 1.按自己的思路写的代码显示的图标没有r p系数的显示 2.如图 3.导入stats,写函数 4.如图 关于zip()函数和enumerate()函数 zip() 1.该函数用于将多个可迭代对象作为参数,依次将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的对象。 enumerate() 2.enumerate是列举的意思,用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中,可同时得到数据对象的值及对应的索引值。 PS:此为数据分析学习记录贴,部分语言解释内容来自网络。 部分内容来源: 1. https://baijiahao.baidu.com/s?id=1611372045137083846&wfr=spider&for=pc 2. https://bbs.csdn.net/topics/392452676 来源: CSDN 作者: Edenn 链接: https://blog.csdn.net/Edenn/article/details/91047344

python数据分析与挖掘项目实战记录

社会主义新天地 提交于 2019-11-30 18:18:28
python数据挖掘项目实战记录 取自《Python数据分析与挖掘实战》一书,整理各个项目中用到的数据处理方法: 数据预处理方法 建立模型方法 绘制图形 对于分类问题:用模型分类;混淆矩阵及其绘图;观测其ROC曲线; 对于聚类问题:划分类目数;获取划分类目中心;平行坐标系描述 (一)数据预处理的方法 在获取数据之后,会发现一些数据值错误 一、填补空值 二、观察数据分布 三、数据清洗,使数据值都合理存在 四、数据规约,提取重要属性 五、数据归一化,为了使用K-Means算法 数据读取 #SVM,bayes,ANN,D_Tree,等需要操作的数据是矩阵,需要 data=data.as_matrix() #将series数据转为矩阵形式的训练集 from numpy.random import shuffle shuffle(data) #随机打乱数据 x_train=data_train[:, 2 :]* 30 #将特征放大 import pickle pickle.dump(model, open( '../tmp/svm.model' , 'wb' )) # 保存模型 model = pickle.load(open( '../tmp/svm.model' , 'rb' )) # 读取模型 #将数据保存为固定文件格式 pd.DataFrame(cm_train, index

python数据分析三剑客

安稳与你 提交于 2019-11-30 12:26:24
前言 大数据时代,数据的重要性不言而喻,掌握数据者得天下。很多同学可能对一堆数据不知如何进行处理分析得到有用的信息,本文主要基于anaconda 简单介绍 Numpy 模块的使用,重点演示 Pandas 的应用。 数据分析:把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 数据分析三剑客:Numpy,Pandas,Matplotlib Numpy与Padas是数据结构、Matplotlib绘图使用 环境准备 环境变量 for zsh,并为 anaconda 的pip命别名 export PATH=$PATH:/Applications/anaconda3/bin alias cpip="/Applications/anaconda3/bin/pip" source ~/.zhsrc numpy NumPy(Numerical Python):Python语言的一个扩展程序库,支持大量的维度数据与矩阵运算,针对数组提供大量的数学函数库。 使用np.array()创建 数组 import numpy as np 一维数组 np.array([1,2,3]) 二维数组 np.array([[1,2,3], [4,5,6]]) 返回值优先级:str > float > int matplotlib绘图 import matplotlib.pylab as plt

为什么数据科学家们总是在离职的路上

五迷三道 提交于 2019-11-30 07:43:29
相信在这个时代的当下,大家或多或少都有看到过类似“数据科学是21世纪最性感工作”的故事,以及数据科学家在这个时代显得是一份十分理想且具有超强吸金能力的工作。因为这个领域需要大量高技能人才,他们需要寻求解决复杂问题的办法(这对于“极客”来说是一件很有吸引力的好事)。总之,大家的描述都让这份工作在技术人的眼中显得十分梦幻、可爱。 但事实是,正如英国《金融时报》在这篇文章中所说,数据科学家通常“每周花1-2小时寻找新工作”。此外,文章还指出,“机器学习专家在说他们正在寻找一份新工作的开发人员中排名第一,占14.3%。数据科学家紧随其后,占13.2%,“这些数据是在他们对64000名开发者的调查中通过堆栈溢出的方法收集的。 作为数据科学从业人员,我也一直有着这样的状态和想法。 那么为什么有这么多数据科学家在寻找新的工作呢? 在回答这个问题之前,我应该澄清一点,我仍然是一名数据科学家。总的来说,我很喜欢这份工作,我不想让其他人不想成为数据科学家,因为这份工作真的是有趣的、刺激的和有意义的。本文的目的是扮演一个魔鬼的倡导者并袒露这项工作的一些消极方面。 从我的角度来看,许多数据科学家对他们的工作不满意主要有以下4个原因: 1.期望与现实不符 Big data is like teenage sex: everyone talks about it, nobody really knows

Python 数据分析学习路线

六眼飞鱼酱① 提交于 2019-11-30 06:23:59
Python 数据分析学习路线 相关资料 概述 数据分析: 数据分析是指用适当利用统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 分析数据,得到结果 学习路线 基础部分: 数学知识 Python基础知识 Python数据分析包使用 进阶部分: 网页爬虫 机器学习和深度学习 大数据 基础部分 数学 需要的知识主要为 《概率论与数理统计》 Python基础知识 由于只需要掌握计算部分的知识,Python 的基础知识需要了解以下内容: 基本语法 数据类型和变量 条件语句和循环语句 函数和模块的概念 Python数据分析包 主要掌握 Python 相关数据分析包的使用,三剑客: numpy pandas matplotlib 参考的书为《利用 Python 进行数据分析》 进阶部分 网页爬虫 《Python3网络爬虫开发实战》崔庆才 机器学习和深度学习 学习SQL,这是数据分析最基础的能力 大体上掌握各类算法原理以及如何利用机器学习包 理论书籍: 《机器学习》, 周志华 《统计学习方法》, 李航 机器学习包: scikit-learn 是一个机器学习库,可以对数据进行分类,回归,无监督,数据降维,数据预处理等等,包含了常见的大部分机器学习方法。 深度学习就是各种神经网络如何解算的问题。 大数据 Hadoop 权威指南 来源: https

CDA数据分析【第一章:数据分析概述】

好久不见. 提交于 2019-11-30 05:28:32
一.数据分析行业发展   1.如何收集、保存、管理、分析、共享正在呈指数式增长的数据是我们必须要面对的一个重要挑战。   2.数据分析包括数据采集、数据存储、检查、清洗、分析、转换和建模等方法对数据进行处理的一系列流程。用于结果的呈现和商业应用。   3.大数据4V特点:Volume【大量】、Velocity【高速】、Variety【多样】、Value【价值】。   4.大数据1.0时代停留在数据认知上,2.0则要求通过这些数据去解决问题。   5.大数据主要应用:     >大数据在预警方面发挥重要作用     >大数据分析成为市场营销的重要手段     >大数据在临床诊断、远程监控、药品研发等领域发挥重要作用     >大数据为金融领域的客户管理、营销管理及风险管理提供重要支撑 二.数据分析应具备的技能   1.和IT团队合作,组织管理数据并决定公司目标【数据存储】   2.从内部数据和外部数据中挖掘信息【数据挖掘】   3.数据清洗和修复数据,避免不必要的数据干扰【数据清洗】   4.用标准的统计工具分析和解析分析结果【分析工具】   5.在复杂的数据集合里指出趋势,找出关系和构建模型【建模】   6.为决策层提供数据和观点,让数据一目了然【数据可视化】   7.设计、创造和维护数据库和数据系统的关系【数据库】   8.分类问题和解数据相关问题【数据分析】   9

大数据时代必不可少的是数据分析工具

筅森魡賤 提交于 2019-11-30 04:01:14
据IDC报告,到2020年我国数据量将达到8.6ZB(8.6万亿GB),庞大的数据量也为数据部门带来巨大的挑战,如何进行数据分析,让数据不再一些冷冰冰的数据,而是可以指导企业决策层和业务部门智能决策的利器。 互联网以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,中国正在成为真正的数据资源大国。 其实,不仅仅一个企业需要庞大的数据分析能力。现在,实际上是一个人人都需要具备数据分析能力的时代。就我来说,作为一名sem竞价操作人员,每天要面对不同渠道的数据表,运用传统的excel处理数据,一天或者一周的数据量还好,但是如果处理一个月甚至半年,虽然说可以处理,但是如果再去结合一些多维度分析、柱状图、折线图等分析数据,就会感觉到捉襟见肘,应付不暇。 最近我也去找了一些自助式数据分析的软件,试用了一款永洪科技新上线的yonghong desktop的桌面版智能数据分析软件,很好的满足了我的需求。直接可以安装在电脑桌面,还不用注册,可以免费使用,很方便。 刚开始尝试了一些简单的功能,做了一些不同维度的报表分析,如各推广单元消费,主要关键词的不同日期的消费变化,推广广告漏斗分析等等。 我用的时候导入的是excel数据源,也支持csv、sql很多其他格式的导入,在制表的过程中直接拖拽工具右侧的报表组件就行,十分方便,报表模板可以自由选择喜欢的模板。