数据分析

2019年10月10号 王腾飞 统计学

跟風遠走 提交于 2019-12-01 02:40:45
spss统计分析软件是最常用的统计分析软件之一。 是企业中最广泛应用的商业数据分析软件之一。 软件的历史、特点和用法。 SAS统计分析软件是最常用的统计分析软件之一。 其他常见的统计分析软件有Eviews、Minitsd、Stata等。另外,Matlsd和Python等语言也常常成为许多统计分析工作者喜爱的数据分析软件。 数据文件的建立,编辑,输出,是对数据分析,管理的首要工作,保证数据分析的正确性,科学性。 不能用数字开头,不能包含空格符,特殊符号,不区分大小写,不能用$,不能是点下划线,不能用保留字。 来源: https://www.cnblogs.com/wangtengfei123/p/11648831.html

2019.10.10 王俊懿_SPSS

自作多情 提交于 2019-12-01 02:38:40
常见统计分析软件简介有 1.spss,是企业中最广泛的商业数据分析软件之一 2.SAS统计分析软件是最常用的统计分析软件之一 3.R语言,包含所有的基本统计分析功能,线性和非线性模型,经典的统计检验,时间序列分析,聚类分析以及高级的作图技巧等 4.其他统计分析软件:Eviews,JMP,Minitab,Stata,Matlab,Python SPSS分析软件的历史:分布于通信医疗也好,证券保险制造商业市场研究科研教育等多个领域和行业 5.SPSS统计分析软件的特点:操作简单,无需编程,功能强大,方便的数据接口,灵活的功能模块组合,与其他程序的无缝结合 6.SPSS的界面:数据编辑窗口,结果管理窗口,结果编辑窗口,语法编辑窗口,脚本窗口 第二章数据文件的建立和管理 1.不能用数字开头,不能包含空格和特殊符号,不区分大小写,不能用$,不是点号下划线不能用保留字all 2.数据文件的建立,编辑输出是对数据分析管理的首要工作,保证数据分析的正确性,科学性 变量视图:1.变量的名称2.变量类型3.数值型4.逗号5.点6.科学计数法7.日期8.美元9.设定货币10.字符串 来源: https://www.cnblogs.com/wangjunyi/p/11648744.html

宋欣蓉2019-10-10统计学笔记

杀马特。学长 韩版系。学妹 提交于 2019-12-01 02:38:01
常见统计分析软件简介有 1.spss,是企业中最广泛的商业数据分析软件之一 2.SAS统计分析软件是最常用的统计分析软件之一 3.R语言,包含所有的基本统计分析功能,线性和非线性模型,经典的统计检验,时间序列分析,聚类分析以及高级的作图技巧等 4.其他统计分析软件:Eviews,JMP,Minitab,Stata,Matlab,Python SPSS分析软件的历史:分布于通信医疗也好,证券保险制造商业市场研究科研教育等多个领域和行业 5.SPSS统计分析软件的特点:操作简单,无需编程,功能强大,方便的数据接口,灵活的功能模块组合,与其他程序的无缝结合 6.SPSS的界面:数据编辑窗口,结果管理窗口,结果编辑窗口,语法编辑窗口,脚本窗口 第二章数据文件的建立和管理 1.不能用数字开头,不能包含空格和特殊符号,不区分大小写,不能用$,不是点号下划线不能用保留字all 2.数据文件的建立,编辑输出是对数据分析管理的首要工作,保证数据分析的正确性,科学性 变量视图:1.变量的名称2.变量类型3.数值型4.逗号5.点6.科学计数法7.日期8.美元9.设定货币10.字符串 来源: https://www.cnblogs.com/songxinrong/p/11648697.html

【Python数据分析】——药品销售数据分析(完整项目实战)

只谈情不闲聊 提交于 2019-12-01 02:10:25
一、前言 这篇文章找来了有关药品销售数据进行案例分析练习,利用适当的统计方法对相关数据进行月均消费次数、月均消费金额、客单价和消费趋势等几个业务指标进行分析。 分析过程为: 数据获取、数据清洗、建模分析、可视化 二、数据获取 (文末有数据获取方式) 这是我们的原始数据,xlsx格式 导入相关的包并读取数据,读取的时候用object读取,防止有些数据读取不了。 接着可以查看数据的相关信息 从上图中我们可以看到该数据集一共有6578行数据,其中第一行是标题,有7列。“购药时间”和“社保卡号”有6576条数据,而其余的有6577条,说明数据中存在这缺失值。“购药时间”和“社保卡号”各缺失一行数据,在这里我们要对数据进行缺失值等进一步处理。 三、数据清洗 数据清洗的过程包括: 选择子集、列名重命名、缺失值处理、数据类型转换、异常值处理以及数据排序。 3.1选择子集。 在数据分析的过程中,有可能数据量会非常大,但并不是每一列都有分析的价值,这时候就要从这些数据中选择有用的子集进行分析,这样才能提高分析的价值和效率。但是本例子中暂不需要选择子集,可以忽略这一步。 3.2列名重命名。 在数据分析的过程中,有些列名和数据容易混淆或者让人产生歧义。比如说本数据集的第一列是“购药时间”,然而我们做数据分析的时候应该是站在商家的角度来看,因此将列名改为“销售时间”就会更清晰明了

python 数据分析几个重要点!!!

≯℡__Kan透↙ 提交于 2019-12-01 01:17:37
Lambda 函数 有些函数只要用几次就需要定义一个新函数,你是否对此感到厌烦呢? Lambda函数可以解决这个问!Lambda函数通常被用来构建应用次数比较少的匿名函数,也就是构建一个不带名字的函数。 Lambda函数基本语法如下: lambda argument : expression 普通函数能做的,Lambda 函数也是能做到的,只要它们能够写成一行。 double = lambda x : x*2 print(double(2)) #输出 4 列表推导式 在写循环的时候,每次定义一堆列表很没有必要,python内置了一种名为列表推导式的方法,仅使用一行代码就能够解决。 #普通写法 x = [1,2,3,4] out = [] for item in x: out.append(item**2) print(out) [1,4,9,16] #列表推导式写法 x = [1,2,3,4] out = [item**2 for item in x] print(out) [1,4,9,16] 一、数据分析是? 1. 何谓数据分析用适当的统计分析方法和相应工具,对收集来的大量数据进行详细研究和概括总结,提取有用信息和形成结论,这一过程叫做数据分析。数据分析有广义和狭义之分,广义的数据分析包括狭义的数据分析和数据挖掘。 2. 数据分析的三大作用数据分析的三大作用:现状分析、原因分析

数据分析-03数据分析

风流意气都作罢 提交于 2019-11-30 23:56:26
数据分析:    1.基本统计:describe()     常用的统计函数:         size:计数       sum:求和       mean:均值       var:方差       std:标准差      2.分组分析:groupby()     groupby(by=[分组列1,分组列2....])[统计列1,统计列2,...].agg({统计列别名1:统计函数;统计列别名2:统计函数,...})     参数说明:       by:用于分组的列       中括号:用于统计的列       agg:统计别名显示统计值的名称   3.分布分析:   4.交叉分析:pivot_table(values,index,columns,aggfunc,fill_value)     参数说明:       values:数据透视表中的值       index:数据透视表中的行       columns:数据透视表中的列       aggfunc:统计函数       fill_value:NA值的统一替换   5.结构分析:axis参数说明      0按列运算,1按行运算       数据框的外运算函数:add,sub,multiply,div --->加减乘除       数据框的内运算函数:sum,mean,var,sd ---->求和,均值,方差

python数据分析——城市气候与海洋的关系研究+机器学习【实例】

跟風遠走 提交于 2019-11-30 23:33:26
城市气候与海洋的关系研究 导入包 In [2]: import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体 mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题 导入数据各个海滨城市数据 In [4]: ferrara1 = pd.read_csv('./ferrara_150715.csv') ferrara2 = pd.read_csv('./ferrara_250715.csv') ferrara3 = pd.read_csv('./ferrara_270615.csv') ferrara=pd.concat([ferrara1,ferrara2,ferrara3],ignore_index=True) torino1 = pd.read_csv('./torino_150715.csv') torino2 = pd.read_csv('./torino_250715.csv')

python大数据挖掘和分析的套路

邮差的信 提交于 2019-11-30 21:56:04
数据分析流程   一般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施一个数据分析项目。按照这个流程,每个部分需要掌握的细分知识点如下:    数据获取:公开数据、Python爬虫   外部数据的获取方式主要有以下两种。   第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。   另一种获取外部数据的方式就是爬虫。   比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。   在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数………   以及,如何用 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。   掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、使用cookie信息、模拟用户登录、抓包分析、搭建代理池等等,来应对不同网站的反爬虫限制。    数据存取:SQL语言   在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心