数据分析

Python数据分析(数据清洗分类和整理)

匿名 (未验证) 提交于 2019-12-02 22:51:08
一.工具的使用 操作: 1. 等待初始化: 2.在浏览器中打开Anaconda 3.输入代码进行数据分析: 4.将数据导入 df = pd . read_csv ( 'I:/SneakerData/task_all/sneaker.csv' ) 5.将数据导出 df . to_csv ( 'I:/SneakerData/intermediateResult/sneaker.csv' ) 二.数据清洗 1.目标: 检查空值和重复值 检查空值: df [ 'price' ] . isnull ( ) . sum ( ) df [ 'style' ] . isnull ( ) . sum ( ) df [ 'tk' ] . isnull ( ) . sum ( ) 或者 df [ 'tk' ] . isnull ( ) . any ( ) 处理空值,变成0 df . fillna ( 0 ) 检查某列是否有重复值 代码: df . duplicated ( ) . value_counts ( ) 结果: 没有重复值!!!表扬虎扑!!! 三.数据整理 1.目标: Xxx个配色―>xxx 正则表达式 ([±]?\d+(.\d+)?) 代码: df [ 'style' ] = df [ 'style' ] . str . extract ( '([+-]?\d+(\.\d+)?)' ) df

Python数据分析:pandas时间序列处理及操作

匿名 (未验证) 提交于 2019-12-02 22:11:45
Python数据分析:pandas时间序列处理及操作 创建方法: 指定index为datatime的list from datetime import datetime import pandas as pd import numpy as np # 指定index为datetime的list date_list = [ datetime ( 2019 , 2 , 18 ) , datetime ( 2019 , 2 , 19 ) , datetime ( 2019 , 2 , 25 ) , datetime ( 2019 , 2 , 26 ) , datetime ( 2019 , 4 , 4 ) , datetime ( 2019 , 4 , 5 ) ] time_s = pd . Series ( np . random . randn ( 6 ) , index = date_list ) print ( time_s ) print ( type ( time_s . index ) ) 运行: pd.date_range() # pd.date_range() dates = pd . date_range ( '2019-02-18' , # 起始日期 periods = 5 , # 周期 freq = 'W-SAT' ) # 频率 print ( dates )

Python数据分析入门―安装环境

匿名 (未验证) 提交于 2019-12-02 22:11:45
Ŀ¼ 1.anaconda (1)What is Anaconda? (2)Why Choose Anaconda (3)How to use Anaconda 一、 anaconda 包管理 1. 更新包 2. 安装包 3. 卸载包 4. 查看已安装包 PS: 更新问题---Windows找不到pythonw 二、Anaconda 环境管理 1.创建环境 2.进入环境 3.离开环境 4.列出环境 5.删除环境 6.共享环境 2.Jupyter notebook (1)Jupyter notebook是什么 (2)如何安装 Jupyter (3)如何使用Jupyter notebook PS:安装遇到的问题――1.进入Home页面后一片空白 问题2――修改Home默认地址 问题3――新建NoteBook出现about:blank Anaconda与Jupyter notebook现在已经发展成为 数据分析的标准环境 。 本文主要从以下 三个角度 进行学习,另外附上我在安装过程中 遇到的问题和解决方法 。 1.anaconda (1)What is Anaconda? anaconda是Python 包管理器 和 环境管理平台 ,字面英文含义为蟒蛇。 (2)Why Choose Anaconda 包含数据分析常用conda、Python 和 150 多个科学包及其依赖项。因此你可以

python数据分析入门――分析USA.gov数据

匿名 (未验证) 提交于 2019-12-02 22:11:45
python数据分析入门――分析USA.gov数据 数据来源 遇到难点 代码部分: 总结 数据来源 很多网上都可以下载数据源,这里就不上传分享了 遇到难点 a)在想要对DataFrame数据进行赋值的时候会警告(不是错误,但是最好不要忽略掉) ‘SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead’ 解决方法: 1.链式操作 data.loc[data.bidder=‘x’,y]=100 2.使用copy,明确的告诉程序我们用的是一个副本,而不是在原来的数据上修改 b)觉得自己pandas的基础知识看的时候还是太毛躁了,DataFrame和Series的基础概念以及很多操作不清楚,通过多加练习对这部分加强吧。概念知识对于我来说太抽象了,很难读 代码部分: /*输出数据源中top 10,出现频率最高的前10*/ import pandas as pd import numpy as np from collections import Counter import json import seaborn as sns import

利用Python进行数据分析(原书第二版)

匿名 (未验证) 提交于 2019-12-02 22:11:45
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Kukafee/article/details/85716533 利用Python进行数据分析 Ŀ¼ 利用Python进行数据分析 Ipython Jupyter matplotlib 数据分析 程序集 CLR pandas 基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量 库 和一些标准的 数据模型 ,提供了高效地操作大型数据集所需的工具。pandas提供了大量的处理数据的函数和方法。Python数据分析模块。 NumPy NumPy (Numerical Python) 是 Python 语言的一个 扩展程序库 ,支持大量的 维度数组 与 矩阵运算 ,此外也针对数组运算提供大量的数学函数库。NumPy 是一个运行速度非常快的数学库,主要用于数组计算。 Ipython 是一个 交互式计算系统 。主要包含三个组件:增加的交互式 “Python shell”,解耦的双过程通信模型,交互式并行计算的架构。支持变量自动补全。 Jupyter Jupyter Jupyter Notebook (此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。Jupyter Notebook 的本质是一个 Web 应用程序

Python数据分析的案例。。

匿名 (未验证) 提交于 2019-12-02 22:11:45
本文来源于数据《Python数据分析》动物书 。。 分享一下电子版本的下载地址: 下面开始numpy的学习: # coding: utf-8 # In[10]: import numpy as np arr1 = np.array([[[1,2,3], [3,4,5]], [[5,6,7], [7,8,9]]]) print(arr1[1]) print("-----------------") old_value = arr1[0].copy() print(arr1) print("+++++++++++++++++") print(arr1) # In[36]: from numpy.random import randn names = np.array(['bob', 'bob', 'will', 'joy', 'will', 'tom', 'jeery']) data = randn(7, 4) # print(names[:2]) print("============") # 基于前面的额布尔数组来利用字符串进行检索 print(data) # In[42]: names = np.array(['bob', 'bob', 'will', 'joy', 'will', 'tom', 'jeery']) print(mask) data = randn(7, 4)

python数据分析:会员数据化运营(中)――RMF分析

匿名 (未验证) 提交于 2019-12-02 22:11:45
版权声明:本文为博主原创文章,如若转载请注明出处 https://blog.csdn.net/tonydz0523/article/details/84894467 何为RFM模型分析 RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。该机械模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况。 RFM的含义: R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。 F(Frequency):客户在最近一段时间内交易的次数。F值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。 M(Monetary):客户在最近一段时间内交易的金额。M值越大,表示客户价值越高,反之则表示客户价值越低。 RFM分析就是根据客户活跃程度和交易金额的贡献,进行客户价值细分的一种方法。 RFM分析的主要作用: 识别优质客户。可以指定个性化的沟通和营销服务,为更多的营销决策提供有力支持。 能够衡量客户价值和客户利润创收能力。 python实现 import time import numpy as np import pandas as pd # 导入数据 df_raw = pd . read_csv ( 'https:/

Python3数据分析与挖掘实战

匿名 (未验证) 提交于 2019-12-02 22:11:45
课程目标: 让学员从零基础开始全面系统地掌握Python数据分析与挖掘的相关知识,并能够胜任Python3数据分析及数据分析与挖掘中级工程师以上的工作,学完后,能够让学员掌握Python3基础知识、编写Python爬虫进行互联网数据采集、Python大数据分析与挖掘等方面的知识,并能够对一些大型网站的数据进行采集与分析等,完成类似的中大型数据分析与挖掘项目。 详细课程大纲: 核心模块概览: Python基础知识(4课时) Python爬虫技术(12课时) Python数据分析与挖掘技术(24课时) 第一阶段:Python基础 第1周 Python零基础入门(4小时) 课程介绍 Python初识 Python语法基础 Python控制流 Python函数 Python模块 Python文件操作 Python异常处理 第二阶段:Python爬虫技术 第2周 网络爬虫理论与简单爬虫编写(4小时) 网络爬虫初识 网络爬虫原理 正则表达式 Urllib库实战 爬虫的异常处理 爬虫的浏览器伪装技术 Python新闻爬虫实战 第3周 复杂网络爬虫的编写与Scrapy框架(4小时) 爬虫防屏蔽手段之代理服务器实战 图片爬虫实战 微信爬虫实战 多线程爬虫实战 Scrapy框架的安装 Scrapy框架常见命令实战 第4周 Scrapy框架深入实战(4小时) 第一个Scrapy爬虫

Python爬虫爬取房天下数据-入MySql数据库

匿名 (未验证) 提交于 2019-12-02 21:59:42
Python爬取房天下某城市数据 随着互联网时代的兴起,技术日新月异,掌握一门新技术对职业发展有着很深远的意义,做的第一个demo,以后会在爬虫和数据分析方便做更深的研究,本人不会做详细的文档,有哪里不足的地方,希望大牛们指点讲解。废话不多说,上代码。 你需要的技能: (1)对前端知识熟悉会调试浏览器 (2)熟练python基础知识,对一些常用的库熟练掌握 (3)掌握一般关系型数据库 import requests as req import time import pandas as pd from bs4 import BeautifulSoup from sqlalchemy import create_engine global info def getHouseInfo(url): info = {} soup = BeautifulSoup(req.get(url).text,"html.parser") resinfo = soup.select(".tab-cont-right .trl-item1") # 获取户型、建筑面积、单价、朝向、楼层、装修情况 for re in resinfo: tmp = re.text.strip().split("\n") name = tmp[1].strip() if("朝向" in name): name = name