【R语言学习笔记】Day2 线性回归与CART回归树的应用及对比
1. 目的:根据房子信息,判断博士顿地区的房价。 2. 数据来源:论文《Hedonic housing prices and the demand for clean air》,数据中共含506个观测值,及16个变量。其中,每个观测值代表一个人口普查区。 boston <- read.csv("boston.csv") # 读取文件 str(boston) # 查看数据结构 3. 变量介绍: (1)town:每一个人口普查区所在的城镇 (2)LON: 人口普查区中心的经度 (3)LAT: 人口普查区中心的纬度 (4)MEDV: 每一个人口普查区所对应的房子价值的中位数 (单位为$1000) (5)CRIM: 人均犯罪率 (6)ZN: 土地中有多少是地区是大量住宅物业 (7)INDUS: 区域中用作工业用途的土地占比 (8)CHAS: 1:该人口普查区紧邻查尔斯河;0: 该人口普查区没有紧邻查尔斯河 (9)NOX: 空气中氮氧化物的集中度 (衡量空气污染的指标) (10)RM: 每个房子的平均房间数目 (11)AGE: 建于1940年以前的房子的比例 (12)DIS: 该人口普查区距离波士顿市中心的距离 (13)RAD: 距离重要高速路的远近程度 (1代表最近;24代表最远) (14)TAX: 房子每$10,000价值所对应的税收金额 (15)PTRATIO: