NLP-文本分类之开始(0)
转眼读研一年了,开题也开了,方向也定了,大方向就是NLP,然而从一开始的上课、做项目开题什么的(自己也比较贪玩,以前不打游戏,结果王者上瘾了),到现在对NLP是一知半解,不对,半解都没有半解,然后时间是不等人的,学制两年,也该考虑毕业条件了(一篇SCI或两篇EI),很难,用一句网上流行的话:我太难了。所以卸载王者,下定决心学习NLP,发个文本分类的文章,所以从文本分类学习开始吧。至到现在,我删除王者已有半月有余,但是对NLP还是那个状态,心情浮躁,再加上和同届同学已经有了差距,还有不知道怎么入门(给了一头猪,不知道从哪啃,从哪啃都感觉难,这更加浮躁了,心里着急但是还学不了),最重要的是数学基础差。奈何不能心里有个声音在呐喊,不能一直这样,所以决心从这篇博客作为开始,好好学好好做。先记录一下自己目前所知道的有关NLP的知识,纯基于自己知道的,不百度。 一、NLP之文本分类的大概过程 准备数据集:要么选公共数据集(先辈们已经给规划好了,打好了标签或者用文件夹表示标签,文件夹里放的是好多.txt文件(所有.txt文件都属于该类),要么是一个.txt文件,里面每行属于一类,行头为类别) 数据预处理:分词、去停用词,去干扰(标点符号),向量化(word2vec、BoW、One-hot、N-gram) 分类模型:CNN、LSTM、Bi-lstm等 二、我会多少 找公共数据集