西瓜数据

西瓜书:第一章 绪论

帅比萌擦擦* 提交于 2020-01-20 21:17:23
1.1 基本术语 假定我们收集了一批关于西瓜的数据,例如: (色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂:稍蜷;敲声=沉闷), (色泽=浅自;根蒂t硬挺;敲声=清脆), ……, 每对括号内是一条记录, 上述记录的集合称为一个“ 数据集 ”(data set); 每条记录时关于一个事件或对象(这里指西瓜)的描述,称为一个“ 示例 ”(instance)或“ 样本 ”(sample); 反映事件或对象在某方面的表现或性质的事项,称为“ 属性 ”(attribute)或“ 特征 ”(feature);例,“色泽”,“根蒂” 属性的取值称为” 属性值 “(attribute value),例,“青绿”、“乌黑”; 属性张成的空间称为“ 属性空间 ”(attribute space)、“ 样本空间 ”(sample space)或“ 输入空间 ”。例如,把“色泽”、“根蒂”、“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置; 由于空间中每个点对应一个坐标向量,因此也把一个示例称为一个“ 特征向量 ”(feature vector); 拥有了标记信息的示例,称为“ 样例 ”(example); 如果预测的是离散值,此类学习任务称为“ 分类 ”(classification),例如“好瓜”、“坏瓜”; 如果预测的是连续值