数据分析

python数据分析实战---数据处理

孤者浪人 提交于 2019-11-30 21:13:55
数据处理 缺失值处理 数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著 1.判断是否有缺失值 import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy import stats % matplotlib inline # 判断是否有缺失值数据 - isnull,notnull # isnull:缺失值为True,非缺失值为False # notnull:缺失值为False,非缺失值为True s = pd.Series([12,33,45,23,np.nan,np.nan,66,54,np.nan,99]) df = pd.DataFrame({'value1':[12,33,45,23,np.nan,np.nan,66,54,np.nan,99,190], 'value2':['a','b','c','d','e',np.nan,np.nan,'f','g',np.nan,'g']}) # 创建数据 print(s.isnull()) # Series直接判断是否是缺失值,返回一个Series print(df.notnull()) # Dataframe直接判断是否是缺失值,返回一个Series print(df[

数据分析-01

旧巷老猫 提交于 2019-11-30 20:02:53
数据处理:(主要使用的模块为:pandas、numpy)   1.数据的存在形式:文件和数据库   文件的存在形式分为:Csv(用,分割列的文本),Excel,Txt   (1)read_table导入文本文件         read_table(file,names=[列名],sep="",encoding)       names列名,默认为文件的第一行作为列名       sep分隔符,默认为空,表示默认导入为一列       encoding文件编码,导入中文时设置utf-8   (2)read_excel导入Excel文件       read_excel(file,sheetname,header)       sheetname列名   (3)read_csv导入csv文件       read_csv(file,encoding)   2.数据的导出    (1)to_csv(filepath,sep,index = True,header = True)   3.缺失数据的处理     (1)数据补齐     (2)删除对应的缺失行     (3)不处理     1.dropna函数:去除数据结构中值为空的数据     使用方法:df = read_csv()          new_df = df.dropna()     2.strip函数

数据分析

孤街浪徒 提交于 2019-11-30 19:49:22
第一章:数据分析介绍 01 数据分析介绍 第二章:开发环境部署 01 开发环境部署 第三章:Numpy 01 Numpy 第四章:Pandas 01 Pandas 第五章:matplotlib 01 matplotlib 第六章:数据操作 01 数据操作 第七章:实战练习 01 实战练习 第七章:统计学 01 统计学 来源: https://www.cnblogs.com/xiaoyuanqujing/p/11638118.html

python数据分析——pandas数据处理

与世无争的帅哥 提交于 2019-11-30 18:55:50
pandas数据处理 1、删除重复元素 使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True - keep参数:指定保留哪一重复的行数据 创建具有重复元素行的DataFrame In [1]: import numpy as np import pandas as pd from pandas import Series,DataFrame In [2]: #创建一个df np.random.seed(1) df = DataFrame(data=np.random.randint(0,100,size=(8,4))) df Out[2]: 0 1 2 3 0 37 12 72 9 1 75 5 79 64 2 16 1 76 71 3 6 25 50 20 4 18 84 11 28 5 29 14 50 68 6 87 87 94 96 7 86 13 9 7 In [4]: #手动将df的某几行设置成相同的内容 df.iloc[2] = [66,66,66,66] df.iloc[4] = [66,66,66,66] df.iloc[7] = [66,66,66,66] df Out[4]: 0 1 2 3 0 37 12 72 9 1 75 5 79 64 2 66 66 66 66

Python数据分析----XX银行股票分析小娱

流过昼夜 提交于 2019-11-30 18:27:16
本文使用Facebook的Prophet工具对XX银行的股票进行分析和预测,just for fun!如下是分析过程中的收获和随笔记录。 1. 对DataFrame类型的数据中的某一列数据进行归一化处理 1.1.code import pandas as pd import numpy as np import matplotlib.pyplot as plt data=pd.read_csv('C:/Users/Administrator/Desktop/txt.csv') #data.plot() #data.columns #ndex(['Date', 'Price'], dtype='object') #data.info() #归一化部分代码 min1=min(data['Price']) max1=max(data['Price']) def to_onevec(x): x1=(x-min1)/(max1-min1) return x1 #处理完后重新塞回去数据就更新 data['Price']=data['Price'].apply(lambda x:to_onevec(x)) #针对DataFrame和Series类型的数据可以使用apply遍历他们中的每一个元素:并对每一个元素执行同样的操作(如:数据的归一化、对数变换、统一减掉均值、取绝对值等) 1.2.效果 2

Ubuntu下搭建python数据分析环境

一世执手 提交于 2019-11-30 18:26:57
本文记录一下Ubuntu下安装python关于数据处理的各种包,安装的方法都非常简单,直接使用apt-get 1.ipython工具 ipython 是一个 python 的交互式 shell,比默认的python shell 好用得多,支持变量 自动补全,自动缩进,支持 bash shell 命令,内置了许多很有用的功能和函数。 sudo apt-get install ipython 2.安装scipy,numpy,matplotlib NumPy系统是Python的一种开源的数字扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。据说NumPy将Python相当于变成一种免费的更强大的Matlab 系统。 SciPy是一个开源的Python算法库和数学工具包。 matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。 sudo apt-get install python-scipy sudo apt-get install python-numpy sudo apt-get install python-matplotlib 3.安装Pandas Python Data Analysis

Python气象数据分析

拜拜、爱过 提交于 2019-11-30 18:26:21
记录《Python数据分析实战》一书中关于意大利北部沿海地区气象数据分析的练习。 此次分析的目的是验证靠海对气候的影响,因此,选取10个城市分析他们的天气数据,其中5个城市距离海100公里以内,另外5个城市距离海100~400公里距离。此外,为了避免山区气候对天气数据造成影响,选取的城市均来自平原地区。 1. 加载数据集 # 导入模块 import numpy as np import pandas as pd import datetime #导入数据可视化模块 %matplotlib inline import matplotlib.pyplot as plt import matplotlib.dates as mdates from dateutil import parser # 加载数据集 df_ferrara = pd.read_csv('WeatherData/ferrara_270615.csv') df_milano = pd.read_csv('WeatherData/milano_270615.csv') df_mantova = pd.read_csv('WeatherData/mantova_270615.csv') df_ravenna = pd.read_csv('WeatherData/ravenna_270615.csv') df_torino

python之数据分析

一笑奈何 提交于 2019-11-30 18:26:05
python之数据分析 为什么要进行数据分析 数据存在的形成 导入文本文件类型 导入excel类型 导入csv文件类型 解决数据的编码格式的方法 导出数据文件 除去重复数据 处理空格数据 数据字段抽取 数据字段拆分 数据记录抽取 数据随机抽样 数据记录合并 字段匹配 数据标准化 数据分组 日期转换 日期格式化 日期抽取 为什么要进行数据分析 人工智能、大数据等数据的采集需要数据----数据通过python分析而来----进行数据的清洗操作—建立数据模型model1----生成一个目标数据—通过目标数据预测未来—得到结果 数据存在的形成 (1)存在于‘文件’,例如excel word txt csv (2)存在于‘数据库’,例如mysql sqlserver oracle db2 import numpy as np import pandas as pd from pandas import read_table , read_excel , read_csv , DataFrame , to_datetime 导入文本文件类型 read_table在分析数据里读取文本数据,可以快速读取大数据、海量数据人工智能的数据集。 pd1 = read_table ( 'C:/ZhangTao/python课件/0806/数据处理/4.1/2.txt' ) # 通过name属性修改列的名称

Python数据分析与挖掘

人走茶凉 提交于 2019-11-30 18:25:46
什么是数据分析与挖掘????? 随着DT时代的到来,越来越多的数据被人们所认识和重视,并开始通过各种数据进行数据采集,如:使用问查调卷获取用户对产品的意见:通过网页或app的浏览记录、交易记录、评论等操作;基于数据爬虫等获得数据;甚至是企业间的合作实现多方数据的共享。 将获得的数据应用于“数据分析与挖掘”之中,应用领域:电商领域,发现破坏规则的害群之马;交通出行领域为打车平台私人定制;医疗健康领域,找到最佳的医疗方案。 数据分析就是针对搜集来的数据运用基础探索、统计分析、深层挖掘等方法,发现数据中有价值的信息和未知的规律与模式,进而为下一步业务决策提供理论与实践依据。 |差异角度| 数据分析 |数据挖掘 |定义 |描述和探索性分析,评估现状和修正不足 |技术性的“采矿过程”,发现数据的未知的规律与价值 |侧重点 |实际的业务知识 |挖掘技术的落地,完成采矿过程 |技能 |统计学、数据库、Excel、可视化等 |数学功底、编程能力 |结果 |结合业务知识解读统计结果 |模型或规则 数据挖掘的流程: 目标:即寻找价值 数据搜集: 数据清洗 : 处理数据的异常值 缺失值 数据的不一致性 量纲影响 维度灾难 建模 利用机器学习模型进行建模 模型评估 应用部署 Python数据分析案例 Python数值计算工具----Numpy Python数值分析工具----pandas