基于sklearn进行文本向量化
sklearn中,计数向量化用 CountVectorizer ,tfidf向量化用 TfidfVectorizer : import pickle from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer def test(vectorizer, word_bag, test_data): test_matrix = vectorizer.transform(test_data) print (test_matrix.shape) array = test_matrix.toarray() for rid in range(len(array)): print (test_data[rid], " \t " , "" .join([ " (%s, %.5f) " % (word_bag[cid], array[rid][cid]) for cid in range(len(word_bag))])) def vectorize(): train_data = [ " 我 来到 北京 清华大学 " , " 他 来到 了 网易 杭研 大厦 " , " 小明 硕士 毕业 与 中国 科学院 " , " 我 爱 北京 天安门 " ] # vectorizer = CountVectorizer