数据分析

数据分析中常用的Python技巧

匿名 (未验证) 提交于 2019-12-02 22:54:36
1. 条件表达式 import math # 普通写法 import math def get_log(x): if x > 0: y = math.log(x) else: y = float('nan') return y # 使用条件表达式 x = 5 log_val1 = get_log(x) # 使用条件表达式 log_val2 = math.log(x) if x > 0 else float('nan') print(log_val1) print(log_val2) 2. 列表推导式 print('找出1000内的偶数(for循环):') l1 = [] for i in range(1000): if i % 2 == 0: l1.append(i) print(l1) print('找出1000内的偶数(列表推导式):') l2 = [i for i in range(1000) if i % 2 == 0] print(l2) # list列表 l = [1, 'a', 2, 'b'] print(type(l)) print('修改前:', l) # 修改list的内容 l[0] = 3 print('修改后:', l) # 末尾添加元素 l.append(4) print('添加后:', l) # 遍历list print('遍历list(for循环):'

2018 XX学院 Python数据分析+Kaggle案例培训课程 含课件代码

匿名 (未验证) 提交于 2019-12-02 22:51:30
课程概述: 近年来,数据分析师的需求非常大,90%的岗位技能需要掌握Python作为数据分析工具。 Python语言的易学性、快速开发,拥有丰富强大的扩展库和成熟的框架等特性很好地满足了数据分析师的职业技能要求。 本课程以案例驱动的方式讲解如何利用Python完成数据获取、处理、数据分析及可视化方面常用的数据分析方法与技巧。 每章节都会引入Kaggle的项目和数据集,通过这些实际案例让学员轻松掌握使用Python分析来自不同领域的数据,随课代码及案例代码均会提供给学员自行实操。 适用人群: 课程目标: 课程大纲: 第一课 工作环境准备及Python数据结构讲解 (2小时) 课程介绍、工作环境准备、Python语言基础回顾、Python数据结构讲解 列表、字典、元组、集合、Python高级特性、切片、迭代、Python高阶函数、map、filter、reduce 第二课 科学计算及数据可视化入门 (2小时) 使用NumPy和SciPy进行科学计算、Matplotlib绘图入门、实战案例:2016美国总统大选数据分析 (2016 Election Polls) 第三课 本地数据的采集与操作 (2小时) 常用格式的本地数据读写、SQL常用语法讲解、Python的数据库基本操作、数据库多表连接用法详解 left join、right join、inner join 实战案例

Python数据可视化教程:基于Plotly的动态可视...

匿名 (未验证) 提交于 2019-12-02 22:51:30
1. plotly 介绍 Plotly是一个非常著名且强大的开源数据可视化框架,它通过构建基于浏览器显示的web形式的可交互图表来展示信息,可创建多达数十种精美的图表和地图, 下面我们以jupyter notebook为开发工具数据分析。Matplotlib存在不够美观、静态性、不易分享等缺点,限制了Python在数据可视化中的发展。为了解决这个问题,新型的动态可视化开源模块Plotly应运而生。 由于Plotly具有动态、美观、易用、种类丰富等特性。 可以说,plotly 在Python 绘制图表的时候,是一种顶层的绘制方式。 2. plotly 两种方式绘制图表 Plotly是集成了在线通过菜单操作绘图与离线通过代码绘图多种绘图方式的绘图系统。如果使用在线方式,在使用plotly的时候,需要在官网注册一个个人账号,设置个人密码。 在线:将你的可视化图像保存到网站上,便于共享和保存。 离线:直接在本地生成可视化图像,便于使用。(推荐使用离线方式,方便查看和阅读) 下面主要从Python的角度来分析plotly的绘图原理及方法: 3. plotly绘图 基本图表:20种 统计和海运方式图:12种 科学图表:21种 财务图表:2种 地图:8种 3D图表:19种 报告生成:4种 连接数据库:7种 拟合工具:3种 流动图表:4种 JavaScript添加自定义控件:13种 <ignore

Python数据分析入门与实践

匿名 (未验证) 提交于 2019-12-02 22:51:30
Python数据分析入门与实践 这是一个数据驱动的时代,想要从事机器学习、人工智能、数据挖掘等前沿技术,都离不开数据跟踪,本课程通过Numpy、Pandas进行数据科学计算,通过Seaborn、 Matplotlib进行数据图形化展示; 在数据分析和处理领域,毫无疑问,Python是主流语言,其原因在于: Python语法简单,代码量少 Numpy、Scipy、Pandas和Matplotlib的科学计算生态圈过于强大 Ipython和Jupyter notebook的交互式环境 容易整合C/C++/FORTRAN代码,使用过往的存量代码 从代码走向工程很快捷 下面是Python数据分析和处理任务中重要的库与工具: 1. Numpy 官网:http://www.numpy.org/ Numpy库是Python数值计算的基石。它提供了多种数据结构、算法以及大部分涉及Python数值计算所需的接口。主要包括以下内容: 快速、高效的多维数组对象ndarray 基于元素的数组计算或者数组间的数学操作函数 用于读写硬盘中基于数组的数据集的工具 线性代数操作、傅里叶变换以及随机数生成 成熟的C语言API,拓展代码 2. Scipy 官网:https://www.scipy.org/ 这个库是Python科学计算领域内针对不同标准问题域的包集合,主要包括以下内容: integrate

Python: 数据分析与可视化matplotlib

匿名 (未验证) 提交于 2019-12-02 22:51:30
1.数据分析与可视化: 数据分析是指用适当的统计分析方法对收集到的大量的数据进行分析,提取有用的信息和形成的结论而对数据加以详细研究和概括总结的过程。 收集数据 -------> 提取信息------------> 形成结论 ---------> 借助图示化手段表示数据。 2.数据分析可视化流程: 定义分析目标 数据采集及预处理[数据的预处理就是数据清洗,清掉不满足条件的数据] 数据分析挖掘 数据可视化 3.1 可视化形式: 统计图(直方图、折线图、饼图) 分布图(热力图、散点图、气泡图) 3.2 常用工具: 绘图工具: matplotlib PyChart reportlab 平台工具: Jupyter Notebook, Pycharm Matplotlib: 安装:pip3 install matplotlib 1.matplotlib的基本配置: 通过修改matplotlib.rcParams。rcParams是matplotlib存放设置的字典,修改字典键值对以改变matplotlib绘图的相关设置。 常用配置: plt.rcParams['font.sans-serif']=['SimHei'] #中文支持 plt.rcParams['axes.unicode_minus']=False #正常显示负号 plt.rcParams['lines.linewidth']=5

python 数据分析之pandas

匿名 (未验证) 提交于 2019-12-02 22:51:30
DataFrame (一般读取后的数据都是df) 数据读取 :pd.read_csv('d:/a.csv',dtype=objec,encoding='utf-8')      pd.read_csv('d:/a.txt',dtype=objec,encoding='utf-8')  数据输出 :pd.to_excel(path) 一次写入多张表:利用ExcelWriter()方法   df2.to_excel(writer,sheet_name='sheet2') 数据统计 : pandas 做数据统计的时候有两种聚合方式: 1,groupby()分组 2,pivot_table()透视表 pandas 分析实例 : 注意需要加两个中括号   同一列的多重筛选方法:df.分公司.isin(['....','....']) 一个特别实用的技巧 字符串文本提取 : python提取文本非常方便――利用切片如: 怎样将整列数据应用文本提取 ?   就是前面讲过的 apply() 方法 分类统计 : 常见的统计函数有:count(),sum(),mean()等 df.loc['....'] 实现 loc 是pandas中对行进行操作 利用透视表pivot_table()进行分类统计 :   pd.pivot_table(df,index=' ',columns=' ',values='

Python量化交易之二_工具库

匿名 (未验证) 提交于 2019-12-02 22:51:30
十年前有个朋友的毕业论文题目与股票数据分析相关。于是他用程序实现了解析通达信数据、计算统计指标、绘图……结果时间过去大半,核心的分析功能还没开始实现。 而现在使用Python语言,下载数据、计算统计指标、绘图,以及数据分析都有现成的工具,我们不用再去关注细节,可以将主要精力用于组合工具和实验。本篇将介绍量化交易相关的常用三方库。 1.常用三方库 数据分析工具 Pandas:数据表工具 Numpy:数学计算工具 Scipy:数学计算工具 Sklearn:机器学习工具 下载数据 TuShare:读取国内股票数据 Pandas_reader:读取国内外股票数据 回溯框架 PyAlgoTrade:离线的分析回溯工具,PyAlgoTrade-cn为A股版本 Zipline:分析回溯工具 计算技术指标 TA-Lib:计算技术指标,底层由C语言实现,支持150多个函数 Pandas_talib:计算技术指标,由Python语言实现,支持30多个函数 金融绘图 Mpl_finance:金融绘图工具,原matplotlib中的子模块 数据分析工具比较通用,不在股票专题中介绍;上一篇在数据下载方法中介绍了Tushare和Pandas_reader软件的用法,下一篇将讲解回溯工具,本篇则介绍计算技术指标和金融相关的绘图方法。 2.计算技术指标 a) 技术指标 Ta-lib支持150多个函数

Python之数据分析

匿名 (未验证) 提交于 2019-12-02 22:51:30
什么是数据分析? 运用不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。 熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析结果就没有太大的使用价值。 一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导;另一方面是针对数据分析结论提出有指导意义的分析建议。能够掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,对于开展数据分析起着至关重要的作用。 数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,必须依靠强大的数据分析工具帮我们完成数据分析工作。 数据分析市场“钱景” 大数据时代的出现,未来30年将对计划经济和市场经济进行重新定义。在大数据时代,人类获得数据能力远远超过大家想象,我们对世界的认识要提升到新的高度。在国内,普通数据开发工程师的基本岗位薪资起步可达10000元/月,一般入职薪资可达13000元/月 左右,2年以上工作数据分析工程师薪资高达30000元/月以上。( *以上数据来源于网络 ) 数据分析学习目录: (一) numpy模块 (二) Pandas模块之Series (三) Pandas之DataFrame01 (四) Pandas之DataFrame02 (五)

Python 数据分析:让你像写 Sql 语句一样,使用 Pandas 做数据分析

匿名 (未验证) 提交于 2019-12-02 22:51:30
import pandas as pd import numpy as np url = ('https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv') tips = pd.read_csv(url) output = tips.head() Output: total_bill tip sex smoker day time size 0 16.99 1.01 Female No Sun Dinner 2 1 10.34 1.66 Male No Sun Dinner 3 2 21.01 3.50 Male No Sun Dinner 3 3 23.68 3.31 Male No Sun Dinner 2 4 24.59 3.61 Female No Sun Dinner 4 sql 语句: SELECT total_bill, tip, smoker, time FROM tips LIMIT 5; 。 output = tips[['total_bill', 'tip', 'smoker', 'time']].head(5) Output: total_bill tip smoker time 0 16.99 1.01 No Dinner 1 10.34 1.66 No Dinner

python科学计算和数据分析常用库

匿名 (未验证) 提交于 2019-12-02 22:51:30
NumPy NumPy最强大的是n维数组,该库还包含基本的线性代数函数、傅立叶变换、随机函数和其他底层语言(如Fortran、C和C++)集成的工具。 SciPy SciPy建立在NumPy基础上,它是离散傅立叶变换、线性代数、优化和稀疏矩阵等多种高级科学和工程模块最有用的库之一。 Matplotlib Matplotlib主要用于绘制各种各样的图形,从直方图到线图、热力图,还可以使用Latex命令在图像中添加数学符号。 Pandas Pandas主要用于结构化数据的运算和操作,广泛用于数据整理和预处理,其有助于提高Python在数据科学社区的使用。 Scikit Scikit主要用于机器学习,该库建立在NumPy、SciPy和matplotlib基础上,包含许多有效的机器学习和统计建模工具,如分类、回归、聚类和降维。 Statsmodels Statsmodels用于统计建模。Statsmodels是一个Python中提供用户探索数据、估计统计模型和执行统计测试的模组。可用于不同类型数据的描述性统计,统计测试,绘图功能和结果统计。 Seaborn Seaborn用于数据可视化。Seaborn是一个用于在Python中制作有吸引力和翔实的统计图形库。它是基于matplotlib。Seaborn旨在使可视化成为探索和理解数据的核心组成。 Bokeh