决策树算法(四)
8.特征提取 1 定义 将任意数据(如文本或图像)转换为可用于机器学习的数字特征 注:特征值化是为了计算机更好的去理解数据 特征提取分类: 字典特征提取(特征离散化) 文本特征提取 图像特征提取(深度学习将介绍) 2 特征提取API sklearn . feature_extraction 3 字典特征提取 作用:对字典数据进行特征值化 sklearn.feature_extraction.DictVectorizer(sparse=True,…) DictVectorizer.fit_transform(X) X:字典或者包含字典的迭代器返回值 返回sparse矩阵 DictVectorizer.get_feature_names() 返回类别名称 3.1.使用 from sklearn . feature_extraction import DictVectorizer def dict_demo ( ) : """ 对字典类型的数据进行特征抽取 :return: None """ data = [ { 'city' : '北京' , 'temperature' : 100 } , { 'city' : '上海' , 'temperature' : 60 } , { 'city' : '深圳' , 'temperature' : 30 } ] # 1、实例化一个转换器类