我们为什么需要条件随机场CRF?

和自甴很熟 提交于 2021-01-30 09:56:21

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


者:Prateek Joshi

编译:ronghuaiyang

导读

昨天给大家介绍了CRF的基本概念,今天我们聊一聊为什么需要这么个东西。


这是一个分为两部分的讨论。在这篇博文中,我们将讨论条件随机场的需求。在下一篇文章中,我们将讨论它们到底是什么以及如何使用它们。在计算机视觉、生物信息学、计算语言学和语音识别等诸多领域,都出现了为一组观测序列分配标签的任务。例如,考虑自然语言处理任务,即在句子中使用相应的词性标记标记单词。在这个任务中,每个单词都有一个标记,表示其适当的词性,从而产生带标注的文本。再举一个例子,考虑根据所观察到的行为给一个视频贴上一个人的心理状态标签的任务。你必须分析用户的面部表情,确定用户是否高兴、生气、悲伤等等。我们经常希望预测大量相互依赖的变量以及其他观察到的变量。如何实现这些任务?我们应该使用什么模型?

为什么要用条件随机场?

在许多应用中,我们希望能够预测相互依赖的多个变量。例如,一个运动队的表现取决于该队每个队员的健康状况。每个成员的健康可能会受到团队旅行计划的影响。比赛的结果可能会影响全队的士气。反过来,士气可能会影响健康。正如你所看到的,有多个变量错综复杂地相互依赖。条件随机场(CRFs)对这些问题的建模非常有用。与此类似的应用有很多,比如对图像的区域进行分类,在战略游戏中估计分数,在DNA链中分割基因,从自然语言文本中提取语法等等。在这样的应用中,我们希望在给定观测特征向量的情况下对随机变量序列进行预测。图模型提供了一种自然的方法来表示输出变量相互依赖的方式。图模型,包括如贝叶斯网络、神经网络、因子图、马尔可夫随机场等,表示了许多变量上的复杂分布,是局部因子在较小的变量子集上的乘积。

为什么有了图模型还不够?

在学习图模型方面,特别是在统计自然语言处理方面,有很多工作都集中在生成模型上,生成模型明确地尝试对输入和输出的联合概率分布建模。生成模型是基于给定参数随机生成可观测数据的模型。尽管这种方法有优点,但也有重要的局限性。不仅输入的维数非常大,而且特征之间具有复杂的依赖关系,因此构造它们之间的概率分布非常困难。对输入之间的依赖关系建模可能导致难以处理的模型。如果是这样,我们为什么不忽略依赖关系呢?这样会更容易吗?不完全是。忽略它们将导致性能下降,这肯定是我们不希望看到的。这就是CRF的作用。当普通分类器预测单个样本的标签而不考虑相邻的输入样本时,CRF会考虑上下文。

举个栗子

让我们考虑这个例子。让你去判断一桌菜的国籍。你只是看到一个米饭为主的菜,没有额外的信息。没有上下文,很难确定它来自哪里,因为许多不同的菜系都以大米为主要成分。现在,你会看到来自相同菜系的更多菜肴。比如说这些额外的菜是海鲜饭,西班牙辣香肠,玉米饼等。现在你开始理解这种模式,并意识到最初的菜肴可能来自西班牙。这就是CRF的工作原理。在做任何决定之前,它会先了解背景,而不是盲目地看一些东西。

既然我们已经清楚了为什么需要CRFs,我们将继续看看这些CRFs到底是什么以及它们是如何表示的。我将在下一篇博客文章中讨论这些问题。


END

英文原文:https://prateekvjoshi.com/2013/02/23/why-do-we-need-conditional-random-fields/

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧


本文分享自微信公众号 - AI公园(AI_Paradise)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!