Task01 线性回归;Softmax与分类模型;多层感知机
经过第一天的学习,加深了自己对于深度学习基础知识理解。虽然之前自己对于这方面的知识有过了解,但还是有不清楚的地方。下面是对自己的知识进行查漏补缺的一个总结。
线性回归
在线性回归课程中,对于两个形状相同的类做按元素运算,对于形状不同的两个类按元素运算时,可能会触发广播机制:先适当复制元素使这两个类形状相同后再按元素运算。
其中的广播机制常常在矩阵的维度不同时使用。
在线性回归中,对于损失函数中的预测值和实际值的理解是这次的收获之一。其中y _hat的形状是[n,1],而y的形状是[n],两者相减得到的结果的形状是[n,n]。在pytorch中,利用view函数,是的两者形状一致,便可以相减。
Softmax与分类模型
在这一讲的课程中,提到了梯度清零这个概念。在pytorch深度学习框架中,加入了梯度累加机制,是的模型的训练速率加快,但有时我们并不需要进行梯度累加,避免前一次训练的梯度对下一次造成影响,这时,我们可以手动清零,降低影响。
多层感知机
验证集、训练集、测试集,这三者之间的关系的区分为后续深度学习的系统学习打下了基础。训练集是模型训练时使用的数据集,而测试集是指在模型训练好后,测试模型性能的数据集;验证集是指在每一次训练完成后,对于模型进行选择的数据集。
Task02 文本预处理;语言模型;循环神经网络
文本预处理;语言模型
与之前的学习不同,这次的学习是基于语言模型的。语言模型是自然语言处理的重要技术。自然语言处理中最常见的数据是文本数据。我们可以把一段自然语言文本看作一段离散的时间序列。语言模型可以用于提升语音识别和机器翻译的性能。
在这一节的学习中,n预案语法是一个很重要的知识点。在语言模型中,当序列长度增加时,计算和存储多个词共同出现的概率的复杂度会呈指数级增加。n元语法通过马尔可夫假设,简化了语言模型的计算。它是基于n-1阶的马尔可夫链的概率语言模型。
循环神经网络
与之前的多层感知机不同,循环神经网络时为了更好地处理时序信息而设计的。它引入状态变量来存储过去的信息,并用其与当前的输入共同决定当前的输出。
循环神经网络常用于处理序列数据,如一段文字或声音、购物或观影的顺序,甚至是图像中的一行或一列像素。因此,循环神经网络有着极为广泛的实际应用,如语言模型、文本分类、机器翻译、语音识别、图像分析、手写识别和推荐系统。
总结
第一次打卡,对于自己之前的知识有了一定的巩固,同时,也了解了自然语言处理方面的知识,拓宽了自己的知识面。自己会坚持下去,继续在深度学习的知识海洋里探索。
来源:CSDN
作者:Alpha 猫
链接:https://blog.csdn.net/qq_45805032/article/details/104317695