机器自动学习

当前自然语言处理发展的四个特点

喜夏-厌秋 提交于 2019-11-27 00:08:37
二十一世纪以来,由于国际互联网的普及,自然语言的计算机处理成为了从互联网上获取知识的重要手段,生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用自然语言处理的研究成果来帮助他们获取或挖掘在广阔无边的互联网上的各种知识和信息,因此,世界各国都非常重视自然语言处理的研究,投入了大量的人力、物力和财力。 我认为,当前国外自然语言处理研究有四个显著的特点: 第一, 基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。 在过去的四十多年中,从事自然语言处理系统开发的绝大多数学者,基本上都采用基于规则的理性主义方法,这种方法的哲学基础是逻辑实证主义,他们认为,智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,因此,思维就是符号运算。 著名语言学家J. A. Fodor在《Representations》 [1] 一书(MIT Press, 1980)中说:“只要我们认为心理过程是计算过程(因此是由表征式定义的形式操作),那么,除了将心灵看作别的之外,还自然会把它看作一种计算机。也就是说,我们会认为,假设的计算过程包含哪些符号操作,心灵也就进行哪些符号操作。因此,我们可以大致上认为,心理操作跟图灵机的操作十分类似。”Fodor的这种说法代表了自然语言处理中的基于规则(符号操作