数据分析

Googleplaystore数据分析

最后都变了- 提交于 2019-12-06 10:04:48
本次所用到的数据分析工具:numpy、pandas、matplotlib、seaborn 一、分析目的 假如接下来需要开发一款APP,想了解开发什么类型的APP会更受欢迎,此次分析可以对下一步计划进行指导。 二、分析维度 本次只对以下八个维度进行分析: 三、数据处理 1、数据介绍 googleplaystore:谷歌应用商店App相关信息 导入数据: #导入分析包import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns df = pd.read_csv('./googleplaystore.csv', usecols=(0, 1, 2, 3, 4, 5, 6)) #简单浏览下数据 df.head() #查看行列数量 df.shape 数据量:10841*8 数据概览: 2、列名称理解: 3、数据清洗 # 查看各个列的非空数据量 df.count() App 10841 Category 10841 Rating 9367 Reviews 10841 Size 10841 Installs 10841 Type 10840 Price 10841 dtype: int64总共有10481条记录,可以看出Rating有很多null值。 清洗数据: #App列

Numpy

我怕爱的太早我们不能终老 提交于 2019-12-06 08:43:52
1.简介   Numpy是高性能科学计算和数据分析的基础包,也是pandas等其他数据分析的工具的基础。   NumPy为Python带来了多维数组功能,并且提供了丰富的函数库处理这些数组,且支持向量化运算,使得这些数学函数能够直接对数组进行操作。将本来需要在Python级别进行的循环,放到C语言的运算中,明显地提高了程序的运算速度。   安装方法: pip install numpy 2、ndarray -多维数组对象   Numpy的核心特征就是N-维数组对 -ndarray。先通过具体的实例来展示一下ndarray的优势。 多维数组列表 3.常用属性 来源: https://www.cnblogs.com/blue-tea/p/11973313.html

数据分析:Numpy

拟墨画扇 提交于 2019-12-06 08:40:40
Numpy 一.Numpy简介 二.Numpy使用 前提:安装和导入 jupyter notebook实例: 1.ndarray -多维数组对象 简介:通过ndarray这个多维数组对象可以让这些批量计算变得更加简单,当然这只它其中一种优势。 ndayyary多种创建方式 #1.np.array:将列表转换为数组,可选择显式指定dtype #第一种:np.array(列表) np.array([1,2,3,4,5]) #2.np.arange(数字) ### 类似于python的range版本 #第二种创建方式:np.arange(数字) ### 类似于python的range版本 #3.linspace:类似arange(),np.linspace(初始值,结束值, num=分割份数默认是50,endpoint=False是否包含结束值) 示例1: 示例2: #4.zero创建0数组:np.zeros((维度数默认为1,每个列表元素数)) 示例1: 示例2: #4.zero创建1数组:np.zeros((维度数默认为1,每个列表元素数)) 示例1: 示例2: #5.empty:根据指定形状和dtype创建空数组(随机值):np.empty(维度数默认为1,每个列表元素数) 示例1: 示例2: #6.eye:根据指定边长和dtype创建单位矩阵:np.eye(维度数和每个列表元素数

数据分析

*爱你&永不变心* 提交于 2019-12-06 08:39:08
介绍: 数据:就是21世纪的石油,而数据分析就是可以让我们发挥这些信息功能的重要手段。 数据分析可以做什么? 例子: 1.淘宝可以观察用户的购买记录,搜索记录以及人们在社交媒体上发布的内容选择商品推荐。 2.股票可以根据相应的数据选择买进卖出 3.今日头条可以将数据分析应用到新闻推送排行算法当中 4.爱奇艺可以为用户提供个性化电影推荐服务 为什么用python进行数据分析 1.python的代码语法简单易学 2.python可以很容易的整合C、C++等语言的代码 3.python有大量用于科学计算的库 4.python不仅可以用于研究和原型构建,同时也适用于构建生产系统 Ipython: 安装:pip install ipython jupyter notebook 安装和启动有两种方式 一:命令行安装: pip install jupyter 启动: C:\Users\oldboy>jupyter notebook 缺点: 必须手动安装数据分析包 二:anaconda Anaconda是Python的一个开源的发行版本,里面包含了很多科学计算相关的包,它和Python的关系就像linux系统中centos和Ubuntu的关系一样,不冲突,你可以同时在电脑上安装这两个东西。那至于为什么我已经在电脑上安装了pycharm还要安装这个Anaconda呢,主要有以下几点原因: (1

数据分析基础

 ̄綄美尐妖づ 提交于 2019-12-06 08:36:49
数据分析介绍 1、数据分析是什么? 2、数据分析能干什么? 3、为什么利用Python进行数据分析? 4、数据分析过程概述 5、常用库简介 1、数据分析是什么?   数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程; 在我们如今这个时代,相信大多数人都能明白数据的重要性,数据就是信息,而数据分析就是可以让我们发挥这些信息功能的重要手段。   2、数据分析能干什么? 对于数据分析能干什么其实我们可以简单的举几个例子: 1、淘宝可以观察用户的购买记录、搜索记录以及人们在社交媒体上发布的内容选择商品推荐 2、股票可以根据相应的数据选择买进卖出 3、今日头条可以将数据分析应用到新闻推送排行算法当中 4、爱奇艺可以为用户提供个性化电影推荐服务 其实数据分析不仅可以完成像以上这样的推荐系统,在制药行业也可运用数据分析来预测什么样的化合物更有可能制成高效药物等 所以说数据分析绝对是未来所有公司不可或缺的岗位,目前社会上获取数据方式太多了,这么多的数据,只要我们拥有数据分析的技能,绝对可以应付任何岗位上的工作。 3、为什么利用Python进行数据分析 """ 1、Python的代码语法简单易学 2、Python可以很容易的整合C、C++等语言的代码 3、Python有大量用于科学计算的库 4

数据分析 - Numpy

为君一笑 提交于 2019-12-06 08:22:49
简介 Numpy是高性能科学计算和数据分析的基础包。它也 是pandas等其他数据分析的工具的基础 ,基本所有数据分析的包都用过它。NumPy为Python带来了真正的多维数组功能,并且提供了丰富的函数库处理这些数组。它 将常用的数学函数都支持向量化运算 ,使得这些数学函数能够直接对数组进行操作,将本来需要在Python级别进行的循环,放到C语言的运算中,明显地提高了程序的运算速度。 下载 >: pip install numpy 引用方式 import numpy as np # 约定俗成的起别名:np 这是官方认证的导入方式,可能会有人说为什么不用 from numpy import * ,是因为在numpy当中有一些方法与Python中自带的一些方法,例如 max 、 min 等冲突,为了避免这些麻烦大家就约定俗成的都使用这种方法。 ndarray Numpy的核心特征就是N-维数组对——ndarray. ndarray的优势 有一个购物车, 购物车中有商品的数量和对应的价格, 求总的价格 shop_car = [2,4,6,1] shop_price = [10,20,1,30] pycharm中实现: shop_car = [2,4,6,1] shop_price = [10,20,1,30] prices = 0 index = 0 for i in shop_car:

数据可视化概述

ε祈祈猫儿з 提交于 2019-12-06 06:33:53
一.图表概述   1.数据图表能使表达形象化。使用数据图表可以使冗长的文字表达简洁化,化抽象为具体,使深奥的内容形象化,使阅读者更容易理解所要表达的主题及观点。   2.数据图表便于突出重点。通过对图表中数据的颜色和字体等信息的设置,可以把问题的重点有效地传达给阅读者。   3.数据图表更能体现专业化。恰当、得体的图表传递着制图者专业、敬业、值得信赖的职业形象。 二.常见图表   常见的图表就是指图形+表格,一般会使用到的就是6种基本类型的图表,其它大部分复杂的图表都可以用这6种图表衍生出来的。   1.表格        2.饼图        3.柱形图          4.条形图        5.折线图        6.散点图        制作图表时应该尽量选择简单的类型,简单的图表能更有效、形象、快速地传递信息! 三.图表的选择   我们在数据分析时需要对一些分析结果进行图表展示,什么样的数据分析方法需要用哪种图表进行展示,才能清晰、准确地表达主题和内容,如何用数据说话,是数据分析的一项重要内容。   一般是根据数据间的关系来选择相应的图表。大部分数据间的关系可以归纳为五种:成分关系、排序关系、时间序列关系、相关关系和多重数据比较关系。   1.成分关系图表选择     成分关系指整体与部分之间的关系,表示成分关系的数据比较常见,一般用饼图【整体和部分只有一级分类