数据分析

《利用python进行数据分析》读书笔记--第五章 pandas入门

只谈情不闲聊 提交于 2019-12-09 11:29:41
pandas是本书后续内容的首选库。pandas可以满足以下需求: 具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。. 集成时间序列功能 既能处理时间序列数据也能处理非时间序列数据的数据结构 数学运算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行 灵活处理缺失数据 合并及其他出现在常见数据库(例如基于SQL的)中的关系型运算 1、pandas数据结构介绍 两个数据结构:Series和DataFrame。Series是一种类似于以为NumPy数组的对象,它由一组数据(各种NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。可以用index和values分别规定索引和值。如果不规定索引,会自动创建 0 到 N-1 索引。 #-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pandas import Series,DataFrame #Series可以设置index,有点像字典,用index索引 obj = Series([1,2,3],index=['a','b','c']) #print obj['a'] #也就是说,可以用字典直接创建Series dic = dict(key = ['a','b

数据分析只能当一辈子取数机?可能你缺少这个基础思维

∥☆過路亽.° 提交于 2019-12-09 11:19:50
前几天写了一篇数据分析思维的文章,反响不错。我决定再写一些数据分析思维方面的文章。 数据分析的方法很多,思维的技巧也很多,面对具体问题的时候,如何选择合适的方法?古人说“ 运用之妙,存乎一心 ”,中国人就喜欢把一件事说的很玄乎。懂的人听了心领神会,不懂的人则完全不知道什么意思。这个“一心”是指什么呢? 用现在的话来说就是“不忘初心”, 不要忘记目标到底是什么 。 找到要解决的目标,能够解决数据分析和职场的大部分问题。 1、找到目标,跳出取数怪圈 取数是数据分析师最大的痛。不能不取,但是取数的产出实在是很有限。有些新人很惨,一开始接触取数,然后就不得不进入一个恶性循环。 取的数没什么用然后取更多的数更没有时间接触业务最终沦为取数机器。 要想破局,就必须有目标思维,必须搞清楚业务方的目的是什么。 业务方想要的数据,不一定真的是他想要的。 这句话看似矛盾,实际上在工作中很常见。比如业务提需求说:“想看一下某功能新用户的人数规模” 业务背景是啥?也许业务人员会说:“这个数据是某某领导想看的。”这是最可怕的一种情况,取数口径是经过一个人转述的。往往这种需求都是变形的。 现实情况很可能只是在一次会议上,领导发现新用户可能是业务增长的突破口。想先看一下新用户的规模如何,然后说:“XXX,看一下新用户的人数是多少,值不值得运营一下。” 实际上这个需求的核心目的是确定新用户能否具有潜在挖掘价值

python凤凰新闻数据分析(二)爬虫数据写入django sqlite3数据库

為{幸葍}努か 提交于 2019-12-08 22:58:51
写入mongo数据库可以参考我之前的 高校新闻博客, 很简单两行代码搞定。 Django版本:2.0 Python版本:3.6.5 此次写入的为django sqlite3数据库,不懂django的先去补习,再回来看。 我们用cmd新建一个项目 website, 再新建一个 app,名称为tool django-admin.py startproject website cd website python manage.py startapp tool 把 tool 中的 models.py 更改为以下内容 from django.db import models # Create your models here. class Information(models.Model): title = models.CharField('新闻标题',max_length=100) number = models.CharField('点击量排名',max_length=32) clicks = models.CharField('点击量',max_length=32) time = models.CharField('时间',max_length=32) participate = models.CharField('参与人数',max_length=32) comment_num =

上海链家二手房交易数据分析

筅森魡賤 提交于 2019-12-08 21:22:10
【python】上海链家二手房交易数据分析 目的:练习pandas数据处理以及数据可视化 数据采集时间:2017/11/7 数据获取:八爪鱼数据采集工具 数据量:约3w条 字段:行政区、小区名称、房型、楼层、朝向、单价、总价、建造年代等 1.数据预处理 —— # 定义一个分列数据的函数工具用于将home_info和location_info的信息拆分出来 import pandas as pd def data_split (df_data) : df_data = df_data.map( lambda x:x.replace( '\n' , '' )) df_data = df_data.map( lambda x:x.replace( ' ' , '' )) df_data = df_data.map( lambda x:x+ '|' ) df_data_0 = df_data.map( lambda x:x.split( '|' )[ 0 ]) df_data_1 = df_data.map( lambda x:x.split( '|' )[ 1 ]) df_data_2 = df_data.map( lambda x:x.split( '|' )[ 2 ]) df_data_3 = df_data.map( lambda x:x.split( '|' )[ 3 ]) df

海量数据分析处理入门

懵懂的女人 提交于 2019-12-08 19:20:32
Hadoop体系结构: Hadoop技术:Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。其来源于Google的MapReduce技术,MapReduce工作原理是将任务分解为成百上千块的小任务,然后发送到计算机集群中。每台计算机再传送会自己那部分信息,MapReduce则迅速整合这些反馈并形成答案。 Hadoop除了核心设计思想MapReduce和HDFS(Hadoop Distributed File System)外,Hadoop还包括了从类SQL查询语言HQL,到NoSQL HBase数据库(NoSQL数据库通常用来处理非结构化的数据,包括音频、视频等。),以及机器学习库Mahout等内容。 大数据时代的热门职业: 大数据处理系统管理员 大数据处理系统管理员负责日常Hadoop集群正常运行。例如直接或间接的管理硬件,当需要添加硬件时需保证集群仍能够稳定运行。同时还要负责系统监控和配置,保证Hadoop与其他系统的有机结合。 大数据处理平台开发人员 大数据处理平台开发人员负责构建大数据处理平台以及用来分析数据的应用。由于其在开发领域已具备相关的经验,所以比较熟悉相关的工具或算法。这在编写、优化以及部署各种复杂的MapReduce的工作时会有所帮助。运用大数据相关技术的从业人员的作用类似传统数据库世界中DBA的定位。 数据分析和数据科学家

海量数据(数据量比较大时)的处理分析

空扰寡人 提交于 2019-12-08 19:20:23
海量数据处理问题是一项艰巨而复杂的任务。原因有以下几个方面: 一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。httpwww.itokit.com 二、软硬件要求高,系统资源占用率高。对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。 三、要求很高的处理方法和技巧。这也是本文的写作目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规则。 那么处理海量数据有哪些经验和技巧呢,我把我所知道的罗列一下,以供大家参考: 一、选用优秀的数据库工具httpwww.itokit.com 现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2,微软公司最近发布的SQL Server

最常用的四种大数据分析方法

巧了我就是萌 提交于 2019-12-08 19:06:13
本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。 当刚涉足数据挖掘分析领域的分析师被问及,数据挖掘分析人员最重要的能力是什么时,他们给出了五花八门的答案。 其实我想告诉他们的是,数据挖掘分析领域最重要的能力是:能够将数据转化为非专业人士也能够清楚理解的有意义的见解。 使用一些工具来帮助大家更好的理解数据分析在挖掘数据价值方面的重要性,是十分有必要的。其中的一个工具,叫做四维分析法。 简单地来说,分析可被划分为 4种关键方法。 下面会详细介绍这四种方法。 1. 描述型分析:发生了什么? 这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。 例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是 “描述型分析 ”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。 2. 诊断型分析:为什么会发生? 描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。 良好设计的 BI dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据。 3. 预测型分析:可能发生什么? 预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值

数据分析常用6种分析思路

徘徊边缘 提交于 2019-12-08 19:05:52
文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。 转自 | CrossHands 作者 | Ahong 作为数据分析师,你是否常因为缺乏分析思路,而被以下问题影响到幸福感(甚至怀疑人生)? 1. 新上线某个产品,需要监控转化率效果,既要看总体情况,也要看细分渠道; 2. 策划营销活动,预算有限,要看看选择哪些目标用户群、采用哪种方案带来的销量更高(更能拉动KPI); 3. KPI又出现较大波动,待会领导估计要问起来,赶紧分析数据找原因; 一个问题就是从天上随机掉落的食材,分析思维就是将这些奇形怪状的食材加工成“看得懂”的美味佳肴。既然要做菜,有哪些值得借鉴的“万金油”菜谱呢? 本篇会为你慢慢道来。 01 流程 完成一项任务,通常需要一系列操作,比如做菜,得先想好吃啥,然后买菜、洗菜、切菜、炒菜。 1.1 行动步骤 行动步骤就是先确定起点、终点(目标),然后将起点和终点的距离拆分成一个个小步骤,知道先做什么,后做什么。 注:图中小黑点表示该步骤下可以选择的行动方案 e.g. 常见的数据分析路径之一是SAS公司提出的 SEMMA范式 : 1. S ample,数据抽样,保证数据的效度和信度; 效度 是指数据的准确性,也指选择的数据和分析目标及业务目标是吻合的; 信度 是指数据的稳定性,要保证样本数据有代表性,且在一定周期内不能有过大的波动

Mysql 优化之海量数据分析

拈花ヽ惹草 提交于 2019-12-08 18:09:44
现在的信息时代,有大量的数据需要被查询并分析。这里所指的海量数据是至少几百万条甚至上千条的是数据返回。基于Mysql 这类的关系型数据库,查询还可能还涉及多表连查,性能可想而知,要想进行优化,就必须要对网络传输、数据服务器处理时间、CPU性能、索引效率等多方面因素进行一定的分析。从而才能得到真正耗时的症结所在,合理的对症下药,优化Mysql的查询性能。 上一次讲到通过跨列查询导致索引失效,来学习 explain 各个参数。今天是通过存储过程模拟海量数据,来了解profile 对分析海量数据的意义。 1,创建两个表,分别为部门表和员工表 create table dept ( dno int ( 5 ) primary key default 0 , dname varchar ( 20 ) not null default '' , loc varchar ( 30 ) default '' ) ENGINE = INNODB default charset = utf8 create table emp ( eid int ( 5 ) primary key , ename varchar ( 20 ) not null default '' , job varchar ( 20 ) not null default '' , deptno int ( 5 ) not null

数据分析行业招聘职位分析报告--基于拉勾网

喜你入骨 提交于 2019-12-08 14:27:27
项目背景 大数据时代的到来让数据在公司决策上发挥了越来越大的作用,数据分析师也成为了各大企业的标配,那么各大企业又会愿意花多少代价来为数据买单呢?本文将通过从拉勾网爬取到的职位信息来展现 「数据分析」 职位究竟 「钱」 景如何: 哪些城市更需要数据分析人才,除了北上广深还有没有其他城市给我们惊喜; 哪些行业更需要数据分析人才,薪资如何; 目前数据分析职位要求的工作经验和学历是怎样: 我工作%n年了,该拿到多少工资才不至于拖后腿了。 使用工具 Python/Tableau 数据获取主要使用 urllib/json 包,具体可参见文章 Python爬虫拉勾网 ; 数据清洗处理使用了 pandas 包,可视化使用了 seaborn 包。 数据来源 本文使用数据全部来自于拉勾网,职位搜索关键词 「数据分析」 ,获取时间2018/3/8,字段解释如下: 字段 内容 city 城市 indusryField 行业 workYear 工作经验 education 学历要求 companySize 公司规模 salary 薪资 positionId 职位编号 项目内容 导入所需包 import pandas as pd import seaborn as sns 主题/字体设置 设置图表主题; 指定字体解决图表中文显示为方块的问题。 sns.set_style('ticks',{'font