统计与机器学习 | Statistics & Machine Learning

会有一股神秘感。 提交于 2020-01-02 07:59:12

统计是什么?机器学习是什么?他们有什么关系?

在本科酒店管理专业有门统计学课,学完后我知道统计是小学数学就学的平均数,是做人口统计等工作时采用的抽样调查;很幸运地,后来我对数据感兴趣后,在研究生课程里又学了一遍统计(是结合概率论一起学的,作为学习机器学习算法的入门课),这时候引入的概念多了起来,还和概率论纠缠不清,包括随机数,各种分布,假设检验,置信区间。总结概括,其最核心、有挑战性、最有趣的就是 --- 用’样本‘推导’总体‘特征。

围绕着这句话扩展仿佛就是给自己打开了一扇新世界的大门。其实,机器学习领域的人知道这个就是机器学习算法的“最终”目的,用机器学习语言表述为 --- 用数据(历史数据,已有数据,抽样数据)来预测结果。如果有时间维度的话很可以是forecast未来的结果。

剩下的就是怎么达成这个目标呢?统计上,会有假设,假设总体的分布(就是事物的特征,这里区别与机器学习的特征,那是multivariate的情况了),比如满足平均值是M的正态分布或者概率是p的伯努利分布。

之所以可以假设,是因为我们对事物的性质有基本的判断,例如上海人的身高是符合正态分布,即大多数人都在胡歌的水平线,姚明(太高),那个谁(上海有名的矮个子我还真不知道~)这些属于少数。

之所以要假设,是为了利用前人总结出来的规律让我们的问题变简单,例如当假设身高符合正态分布后,我们就可以用正态分布的函数(即概率密度函数)来描述,进一步的,引入样本数据来进行参数估计。

参数估计这里要画重点了!!!因为其实在我看来,这正是区分传统统计估计和机器学习算法估计的关键。

首先传统的方式是用close-formed function,这个也是数学统计领域的专家们多年总结出来的可以直接用来估计参数的方法;另一种机器学习的方法就是使用优化算法来根据数据自动优化的到参数,最常用的莫过于耳熟能详的梯度下降法了。

所以上面其实已经笼统地回答统计与机器学习的关系。

现在总结性地回答,机器学习是什么呢?

我片面地、从统计的角度来讲,就是统计模型 + 优化算法 + 工程实现,最后出来的东西,就是看似是人工打造的智能学习器。

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!