垃圾邮件分类
1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数据训练模型。即根据训练样本集,计算词项出现的概率P(xi|y),后得到各类下词汇出现概率的向量 。 6. 测试模型:用测试数据集评估模型预测的正确率。 混淆矩阵 准确率、精确率、召回率、F值 7. 预测一封新邮件的类别。 8. 考虑如何进行中文的文本分类(期末作业之一)。 要点: 理解朴素贝叶斯算法 理解机器学习算法建模过程 理解文本常用处理流程 理解模型评估方法 #垃圾邮件分类# import csv import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer text = '''As per your request 'Melle Melle (Oru Minnaminunginte Nurungu Vettam)' has been set as your callertune for all Callers. Press *9 to copy your friends Callertune''' #预处理# def preprocessing(text): #分词#