监督分类

机器学习算法

旧城冷巷雨未停 提交于 2019-11-27 10:19:00
文章目录 一 监督学习 1 classification分类 (1) Binary Decision Tree(BDT)二分决策树 (2) Naive Bayesian Classifier朴素贝叶斯分类器 (3) Neural Network(NN)神经网络 (4)Convolution NN(CNN)卷积神经网络 (5)Deep Belief Networks(DBN)深度信念网络 (6)Recurrent NN(RNN)深度循环神经网络 2 regression回归 (1)LinearRegression线性回归: (2)树回归: 二 强化学习 1 Q-learning 2 Deep Q Networks 3 Double Q-learning 4 Prioritized experience replay 三 无监督学习 1 Dimensionality Reduction降维 (1)Stacked Auto-Encoders(SAE)栈式自编码 (2)Local Linear Embedding局部线性嵌入 2 Clustering聚类 (1)聚类算法简介 (2)聚类算法分类 (3)KMeans算法 (4)层次聚类(hierarchical clustering) (5) DBSCAN(基于密度的聚类算法) 3 Density Estimation密度估计 一 监督学习

2.自动文本分类

旧城冷巷雨未停 提交于 2019-11-27 08:15:53
2.自动文本分类 现在对于文本分类的定义和范围有所了解。当提到 “文本分类系统” 可以将文本文件划分到它们代表的类或类别时,也从该概念和数学上对文本分类进行了正式的定义。假设几个人通过浏览每个文本并进行分类完成文本分类任务,那么他们就是我们所讨论的文档分类系统的一部分。然而,一旦文档数量超过百万并且需要快速进行分类处理时,该方法则不能很好地扩展。为了使文档分类的过程更加高效和快速,需要思考文本分类任务的自动化,这给我们带来了自动文本分类。 为实现自动文本分类,可以充分利用一些机器学习的技术和概念。这里主要有两类与解决该问题相关的技术: 有监督机器学习。 无监督机器学习。 此外,还有一些其他的机器学习算法家族,例如强化学习和半监督学习。接下来,更加升入地了解有监督机器学习和无监督机器学习算法,从机器学习方面了解如何利用这些算法进行文本文件分类。 无监督学习指的是不需要提前标注训练数据样本来建立模型的具体的机器学习技术或算法。通常,有一个数据点集合,它可以是文本或数字类型的,这取决于要解决的具体问题。我们通过名为 “特征提取” 的过程从每个数据中提取特征,然后将来自于每个数据的特征集合输入算法。尽力从这些数据中提取有意义的模式,例如使用聚类或基于主题模型的文本摘要技术对相似的数据进行分组。这项技术在文本分类中非常有用,也称为文档聚类,即我们仅仅依靠文本的特征、相似度和属性