cs224u Homework PPMI+ LSA +GloVe+ Dice coefficient + t-test reweighting +subword information

泄露秘密 提交于 2020-05-05 08:50:53

cs224u Homework  PPMI+ LSA +GloVe+ Dice coefficient + t-test reweighting +subword information 

本文包括以下内容:

  • PPMI as a baseline
  • Gigaword with LSA at different dimensions
  • Gigaword with GloVe for a small number of iterations
  • Dice coefficient
  • t-test reweighting
  • Enriching a VSM with subword information
  • Your original system
  • Bake-off

PPMI作为基线

PPMI作为任务的基线代码,编写run_giga_ppmi_baseline函数,实现以下操作:
1.在VSM中,读取Gigaword 计数矩阵(窗口大小为20)到pd.DataFrames中。文件是data/vsmdata/giga_window20-flat.csv.gz。
2.用PPMI重新更新计数矩阵的权重。
3.使用full_word_similarity_evaluation函数评估这个重加权矩阵。run_giga_ppmi_baseline的返回值是调用完全相似性评估的返回值。目的是熟悉vsm中的代码和函数full_word_similarity_evaluation。


test_run_giga_ppmi_baseline基线用于测试是否正确实现了此规范。

giga_window20-flat.csv文件(维度5000,选取5000个单词)的部分记录如下:

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!