Introduction and word vectors
预习部分
- 上完课回过头来需要问自己哪些问题?
NLP中使用的核心方法有哪些,阐述对他们的理解。
语言是如何产生的,产生和理解过程中有哪些困难。
使用PyTorch搭建框架解决实际问题。 - P11的换算是什么意思?
- 如何在电脑当中存储有用的含义?
一般的解决办法是使用WordNet,用来存储同义词集和相关词集。
这种方法的问题如下:
无法识别细微的差别,比如某个词语仅仅在某种情况下才是该词的同义词。
很难跟上语言更新的速度。
需要大量的人力去创造和调整。
不能度量词语之间相似的程度。 - 如何在电脑中表示words?
传统NLP当中使用one-hot vectors表示单词,但是这样无法表示相似的词语。
为了解决这个问题,提出分布式语义,具体含义是一个单词的含义是由附近的单词所给出的。
P17的向量每个数字都表示什么?长度有什么含义吗? - word2vec是什么?
是一个框架,输入大量的句子,输出单词的vector。
思路大概为遍历text,使用单词向量的相似度来计算已知context的情况下预测得到该单词的概率。不断调整单词向量使得概率最大。
P22的目标函数为什么是已知该单词预测context的概率乘积,难道不是反过来吗?
大概是用梯度下降法进行求解,但是细节部分还没看太仔细。
来源:https://blog.csdn.net/Rosalind_Xu/article/details/101346753