一.工具的使用
操作:
1.

等待初始化:

2.在浏览器中打开Anaconda

3.输入代码进行数据分析:

4.将数据导入
df = pd.read_csv('I:/SneakerData/task_all/sneaker.csv')
5.将数据导出
df.to_csv('I:/SneakerData/intermediateResult/sneaker.csv')

二.数据清洗
1.目标:
检查空值和重复值
检查空值:
df['price'].isnull().sum() df['style'].isnull().sum() df['tk'].isnull().sum()
或者
df['tk'].isnull().any()

处理空值,变成0
df.fillna(0)

检查某列是否有重复值
代码:
df.duplicated().value_counts()
结果:

没有重复值!!!表扬虎扑!!!
三.数据整理
1.目标:
Xxx个配色―>xxx
正则表达式
([±]?\d+(.\d+)?)
代码:
df['style']=df['style'].str.extract('([+-]?\d+(\.\d+)?)') df['price']=df['price'].str.extract('([+-]?\d+(\.\d+)?)') df['tk']=df['tk'].str.extract('([+-]?\d+(\.\d+)?)') df.to_csv('I:/SneakerData/intermediateResult/sneaker_toNumber.csv')

效果:

2.划分出按品牌,作为新的一列
df['barnd']=df['标题'].str.extract("([\w']+)")
文章来源: https://blog.csdn.net/lingfy1234/article/details/90729353