Python数据分析(数据清洗分类和整理)

匿名 (未验证) 提交于 2019-12-02 22:51:08

一.工具的使用

操作:
1.


等待初始化:


2.在浏览器中打开Anaconda


3.输入代码进行数据分析:


4.将数据导入
df = pd.read_csv('I:/SneakerData/task_all/sneaker.csv') 

5.将数据导出

df.to_csv('I:/SneakerData/intermediateResult/sneaker.csv') 

二.数据清洗

1.目标:
检查空值和重复值
检查空值:

df['price'].isnull().sum() df['style'].isnull().sum() df['tk'].isnull().sum() 

或者

df['tk'].isnull().any() 


处理空值,变成0
df.fillna(0) 

检查某列是否有重复值

代码:

df.duplicated().value_counts() 

结果:


没有重复值!!!表扬虎扑!!!

三.数据整理

1.目标:


Xxx个配色―>xxx

正则表达式
([±]?\d+(.\d+)?)
代码:

df['style']=df['style'].str.extract('([+-]?\d+(\.\d+)?)') df['price']=df['price'].str.extract('([+-]?\d+(\.\d+)?)') df['tk']=df['tk'].str.extract('([+-]?\d+(\.\d+)?)') df.to_csv('I:/SneakerData/intermediateResult/sneaker_toNumber.csv') 


效果:


2.划分出按品牌,作为新的一列
df['barnd']=df['标题'].str.extract("([\w']+)") 
文章来源: https://blog.csdn.net/lingfy1234/article/details/90729353
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!