Python数据分析(数据清洗分类和整理)
一.工具的使用 操作: 1. 等待初始化: 2.在浏览器中打开Anaconda 3.输入代码进行数据分析: 4.将数据导入 df = pd . read_csv ( 'I:/SneakerData/task_all/sneaker.csv' ) 5.将数据导出 df . to_csv ( 'I:/SneakerData/intermediateResult/sneaker.csv' ) 二.数据清洗 1.目标: 检查空值和重复值 检查空值: df [ 'price' ] . isnull ( ) . sum ( ) df [ 'style' ] . isnull ( ) . sum ( ) df [ 'tk' ] . isnull ( ) . sum ( ) 或者 df [ 'tk' ] . isnull ( ) . any ( ) 处理空值,变成0 df . fillna ( 0 ) 检查某列是否有重复值 代码: df . duplicated ( ) . value_counts ( ) 结果: 没有重复值!!!表扬虎扑!!! 三.数据整理 1.目标: Xxx个配色―>xxx 正则表达式 ([±]?\d+(.\d+)?) 代码: df [ 'style' ] = df [ 'style' ] . str . extract ( '([+-]?\d+(\.\d+)?)' ) df