信息熵为什么要定义成-Σp*log(p)?
信息熵为什么要定义成-Σp*log(p)? 再解释信息熵之前,需要先来说说什么是信息量。 信息量是对信息的度量,单位一般用bit。 信息论之父克劳德·艾尔伍德·香农(Claude Elwood Shannon )对信息量的定义如下: 在解释这个公式之前,先看看下面的例子。 比如一个黑箱里有2个苹果,8个橙子我们把从黑箱里取苹果、橙子看成是一个随机过程,X={x1,x2},其中的随机变量分别表示苹果、橙子。 当我们了解到拿出来的是什么的时候,我们就接受到了信息,这个信息的信息量的大小与这个东西出现的概率有关,这里苹果是0.2,橙子是0.8。越小概率的事情发生,其产生的信息量越大,比如我了解到拿出来的是一个苹果所获得的信息量比一个橙子的信息量要大的多。 所以如果我们要寻找一个函数来定义信息,则该函数要满足如下条件: 要符合随着概率的增大而减小的形式; 函数的值不能为负数,因为信息量最小为0。 带负号的对数函数显然符合以上要求,当然,肯定有其他函数也会符合以上要求,对此,香农在《A Mathematical Theory of Communication》(通信的数学理论)这篇论文中有说明选择对数函数的原因: 大意是说: 如果集合中的消息的数量是有限的,而且每条消息被选择的可能性相等,那么这个消息数或者任意这个消息数的单调函数可以用来做为从集合选择一条消息时产生的信息量的度量