一、《集体智慧编程》之机器学习&数据挖掘框架认识
前言:新开通的博客,用于记录一些学习方面的东西,算是一个学习笔记吧。本系列按照《集体智慧编程》一书的框架进行。老实说,《集体》在理论上并不算是很好的参考书,但是该书是以一个个具体场景应用为驱动的,个人认为很适合用于机器学习相关的入门教材,起码很对我的胃口。 “假如你训练了一只狗,若干年后,如果它忽然有一天能帮你擦鞋洗衣服,那么这就是数据挖掘;要是忽然有一天,你发现狗化装成一个老太婆消失了,那么这就是机器学习。” ——杨强,香港科技大学 机器学习说起来应该是人工智能领域与算法领域的一个子领域。它允许计算机不断的进行学习。大多数情况下,这相当于将一组数据传递给算法,并由算法推断出这些数据属性相关的信息——借助这些信息,算法能够预测出未来有可能出现的其他数据。简单点来说就是从数据中自动分析获得规律,并利用规律对未知数据进行预测。 数据挖掘在某方面可以说算是机器学习的一种应用。机器学习算法其它的方面的应用有计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺骗、证券市场分析、DNA序列测序、语音和手写字识别、战略游戏和机器人运用等。 1、机器学习&数据挖掘的数学基础 机器学习是一个多领域交叉的学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等。具体来说,机器学习与数据挖掘学习需要用到的数学核心基础有以下几个方面: ①微积分 (没办法,这个是数学分析的基础)