2 监督学习与非监督学习
2 机器学习算法 2.1 监督学习 首先给出一个例子来解释什么是监督学习,后面将给出更加正式的定义。假设你想预测房价(无比需要啊。。。。),某个学生从某地收集了数据集,其中一个数据集是这样的。横坐标是房子的面积(平方英尺为单位),纵坐标是房子的价格(单位千美元)。 假设你的朋友有个750平方米的房子,想要知道能够卖多少钱。学习算法怎么可以帮助你呢?一种方法是学习算法可以绘制一条直线,使这条直线尽可能的匹配到所有数据,从下图可以看出,可能能够买到15万刀(一平米两千刀,看来人家的房价也不低啊。。。。)。 直线可能并不是最好的方法,可能会有更好的,在房价预测的例子中,可能一个二元函数能够更好的匹配所有数据,即二次多项式更加符合数据集,如果你这样做,预测结果就应该是20万刀(我去,还让人活吗???)。后面会介绍怎么决定是选择线性函数还是二次函数来拟合数据。 监督学习意指给一个算法一个数据集,在这个数据集中正确的答案已经存在了(supervised learning refers to the fact that we gave the algorithm a data set in which the "right answers" were given.)。比如给定房价数据集,对于里面的每一个例子,算法都知道正确的房价,即这个房子实际卖出的价格,算法的结果就是计算出更多的正确的价格