《动手学深度学习》系列笔记 —— 语言模型(n元语法、随机采样、连续采样)
目录 1. 语言模型 2. n元语法 3. 语言模型数据集 4. 时序数据的采样 4.1 随机采样 4.2 相邻采样 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 \(T\) 的词的序列 \(w_1, w_2, \ldots, w_T\) ,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: \[ P(w_1, w_2, \ldots, w_T). \] 1. 语言模型 假设序列 \(w_1, w_2, \ldots, w_T\) 中的每个词是依次生成的,我们有 例如,一段含有4个词的文本序列的概率 \[ P(w_1, w_2, w_3, w_4) = P(w_1) P(w_2 \mid w_1) P(w_3 \mid w_1, w_2) P(w_4 \mid w_1, w_2, w_3). \] 语言模型的参数就是词的概率以及给定前几个词情况下的条件概率。设训练数据集为一个大型文本语料库,如维基百科的所有条目,词的概率可以通过该词在训练数据集中的相对词频来计算,例如, \(w_1\) 的概率可以计算为: 其中 \(n(w_1)\) 为语料库中以 \(w_1\) 作为第一个词的文本的数量, \(n\) 为语料库中文本的总数量。 类似的,给定 \(w_1\) 情况下, \(w_2\) 的条件概率可以计算为: 其中 \(n(w_1, w_2)\) 为语料库中以 \