聚类

基于高维聚类技术的中文关键词提取算法

若如初见. 提交于 2020-03-01 04:34:44
[摘要] 关键词 提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取 算法 。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技术的中文关键词提取方法具备更好的稳定性、更高的效率及更准确的结果。 引言     关键词提取是通过对一篇输入文章做内容分析,按一定比例或字数要求提取出重要且语义相似性凝聚的关键词的过程。关键词自动提取是文本挖掘领域的一个重要分支,在自动摘要、文本分类、文本聚类、文本过滤、话题跟踪、信息检索、自动问答等很多领域有重要作用。   迄今为止,关键词自动提取吸引了不少国内外学者的关注和研究,其理论成果主要包括基于统计信息的方法、机器学习方法和浅层式语义分析方法三大类。其中应用最为广泛的是基于统计信息的关键词提取方法,具备简洁易懂、通用性强等优势。   本文针对基于统计信息关键词提取方法准确率不高的问题,引入高维聚类思想进行改进,提出基于高维聚类技术的中文关键词自动提取算法。经过基于小词典的快速分词、二次分词、高维聚类、关键词甄选四个步骤,算法抽取出的关键词更加准确,并且具有更好的稳定性和更高的效率。 关键词提取方法   关键词自动提取方法分为基于统计信息的方法

文本关键词提取算法总结

放肆的年华 提交于 2020-03-01 02:19:11
1.TF-IDF 昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类。我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。 原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数 2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值 3、用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词。 2.基于语义的统计语言模型 文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。 采用 基于语义的统计语言模型 ,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。 文章关键词提取组件的主要特色在于: 1、 速度快 :可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档; 2、 处理精准 :Top N的分析结果往往能反映出该篇文章的主干特征; 3、 精准排序 :关键词按照影响权重排序,可以输出权重值; 4、 开放式接口

斯坦福大学机器学习课程第一周笔记

你。 提交于 2020-02-28 19:26:53
课程地址: https://www.coursera.org/learn/machine-learning/home/welcome 简记 机器学习mechine learning 监督学习Supervised learning 回归问题regression problem 分类问题classification problem 无监督学习Unsupervised learning 聚类问题clustering 非聚类non-clustering 线性回归linear regression 代价函数cost function 梯度下降算法gradient descent---第一个算法 线性代数知识 矩阵matrix 矩阵加addition 实数矩阵乘scalar Multipliction 矩阵矩阵乘matrix matrix multipliction 向量vector 矩阵标量乘matrix vector multipliction 标量identity matrix 方阵square matrix 奇异矩阵singular/退化矩阵degenerate 逆矩阵inverse 转置矩阵transponse 乘法性质 不符合交换律和结合律(除标量外) 来源: https://www.cnblogs.com/ephemerid/p/10838329.html

算法笔记- K均值(K-Means)

非 Y 不嫁゛ 提交于 2020-02-28 15:33:14
前言 本系列为机器学习算法的总结和归纳,目的为了清晰阐述算法原理,同时附带上手代码实例,便于理解。 目录    k近邻(KNN)    决策树    线性回归    逻辑斯蒂回归    朴素贝叶斯    支持向量机(SVM)    组合算法(Ensemble Method)    K-Means    机器学习算法总结 本章主要介绍无监督学习中的k-means,以及简单代码实现。 一、算法简介 k-Means算法是一种聚类算法,它是一种无监督学习算法,目的是将相似的对象归到同一个蔟中。蔟内的对象越相似,聚类的效果就越好。聚类和分类最大的不同在于,分类的目标事先已知,而聚类则不一样。其产生的结果和分类相同,而只是类别没有预先定义。 1.1 算法原理 设计的目的: 使各个样本与所在簇的质心的均值的误差平方和达到最小 (这也是评价K-means算法最后聚类效果的评价标准)。 1.2 算法特点 · 优点:容易实现 · 缺点:可能收敛到局部最小值,在大规模数据上收敛较慢 适合数据类型:数值型数据 1.3 聚类过程 1)创建k个点作为k个簇的起始质心(经常随机选择)。 2)分别计算剩下的元素到k个簇中心的相异度(距离),将这些元素分别划归到相异度最低的簇。 3)根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均值。 4)将D中全部元素按照新的中心重新聚类。 5

量化投资学习笔记27——《Python机器学习应用》课程笔记01

杀马特。学长 韩版系。学妹 提交于 2020-02-27 17:28:32
北京理工大学在线课程: http://www.icourse163.org/course/BIT-1001872001 机器学习分类 监督学习 无监督学习 半监督学习 强化学习 深度学习 Scikit-learn算法分类 sklearn自带的标准数据集 sklearn的六大任务:分类、回归、聚类、降维、模型选择、数据预处理。 一、无监督学习:数据没有标签。最常用的是聚类和降维。 聚类:根据数据的相似性将数据分为多类的过程。使用样本的“距离”来估算样本的相似性,不同的距离计算方法有不同的分类结果。常用的距离计算方法有欧氏距离,曼哈顿距离,马氏距离,余弦相似度。 sklearn的聚类功能包含在sklearn.cluster中。同样的数据集应用不同的算法可能得到不同的结果,运行时间也不同。 其所接受的数据输入格式: 标准输入格式:[样本个数,特征个数]定义的矩阵形式。 相似矩阵形式输入:以[样本数目]定义的矩阵,矩阵中每个元素为样本相似度。 常用聚类算法 降维:在保证数据所具有的代表特性或分布的情况下,将高维数据转化为低维数据。 用于数据的可视化,或精简数据。 sklearn的降维算法包含在decomposition模块中,含有7种降维算法。主要有 1.聚类 ①k-means算法及应用 以k为参数,把n个对象分为k个簇,使簇内具有较高的相似度,而簇间的相似度较低。 过程:

聚类算法学习

本小妞迷上赌 提交于 2020-02-26 09:44:28
聚类是一种非监督学习方法 在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正 样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一 个假设函数。与此不同的是,在非监督学习中,我们的数据没有附带任何标签,我们拿到的 数据就是这样的: 在这里我们有一系列点,却没有标签。因此,我们的训练集可以写成只有 x(1),x(2)…..一直 到 x(m)。我们没有任何标签 y。因此,图上画的这些点没有标签信息。也就是说,在非监督 学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法, 快去为我们找找这个数据的内在结构给定数据。我们可能需要某种算法帮助我们寻找一种结 构。图上的数据看起来可以分成两个分开的点集(称为簇),一个能够找到我圈出的这些点集的算法,就被称为聚类算法。 K-均值算法 K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的 组。 K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为: 首先选择 K 个随机的点,称为聚类中心(cluster centroids); 对于数据集中的每一个数据,按照距离 K 个中心点的距离,将其与距离最近的中心点关 联起来,与同一个中心点关联的所有点聚成一类。 计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。 重复步骤

5.1_非监督学习之sckit-learn

大憨熊 提交于 2020-02-26 09:42:19
非监督学习之k-means K-means通常被称为劳埃德算法,这在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段。 1.首先,随机设K个特征空间内的点作为初始的聚类中心。 2.然后,对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并且把该数据标记为这个聚类中心。 3.接着,在所有的数据都被标记过聚类中心之后,根据这些数据新分配的类簇,通过取分配给每个先前质心的所有样本的平均值来创建新的质心重,新对K个聚类中心做计算。 4.最后,计算旧和新质心之间的差异,如果所有的数据点从属的聚类中心与上一次的分配的类簇没有变化,那么迭代就可以停止,否则回到步骤2继续循环。 K均值等于具有小的全对称协方差矩阵的期望最大化算法 sklearn.cluster.KMeans class sklearn.cluster.KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm='auto') """ :param n_clusters:要形成的聚类数以及生成的质心数 :param init

无监督学习的几种最热门的聚类算法

回眸只為那壹抹淺笑 提交于 2020-02-26 08:30:43
无监督学习是机器学习技术中的一类,用于发现数据中的模式。本文介绍用Python进行无监督学习的几种聚类算法,包括K-Means聚类、分层聚类、t-SNE聚类、DBSCAN聚类等。 无监督学习是机器学习技术中的一类,用于发现数据中的模式。无监督算法的数据没有标注,这意味着只提供输入变量(X),没有相应的输出变量。在无监督学习中,算法自己去发现数据中有意义的结构。 Facebook首席AI科学家Yan Lecun解释说,无监督学习——即教机器自己学习,不需要明确地告诉它们所做的每一件事情是对还是错,是“真正的”AI的关键。 https://blog.csdn.net/sinat_38682860/article/details/85840435 来源: oschina 链接: https://my.oschina.net/pengchanghua/blog/3161679

【论文笔记】Evaluation of Hierarchical Clustering Algorithms for Document Datasets

落花浮王杯 提交于 2020-02-26 00:13:03
导读 这篇文章感觉挺有意思,2002年CIKM的文章。 在我的todo list里面虽然已经一个月了,但是之前主要是奔着他的 hierarchy evaluation来的,现在看看其实他主要的contribution是大量的实验+自己提出的constrained agglomerative algorithms (话说做hierarchy clustering evaluation的人真少啊,我找了非常久,来来去去就那么几篇好点的文章。自己思考做这个方向的人少是因为: 1 聚类算法本身无监督,特别难以定论在所有的情况下都是这个算法好。 2 很少有人本身就是做聚类算法改进的,毕竟要实验需要在不同的人物上做大量的实验。图片聚类、文本聚类、人物画像 聚类等等。数据集大小又因人而异。 3 大部分都聚类也不是很需要层次聚类(你看我上面举的三个例子,跟层级没有一定的联系吧… 这三个理由互成因果。没什么需求导致小方向,小方向又导致没什么新鲜血液来研究。 doc-level聚类这个任务我之前没有做过,但是光从文档这个级别上来思考,可操作的特征非常多,会比我们自己做的任务要简单。毕竟我们是sentence level的。 Abstract 主要说在 文档分类 这个任务下 比较了大量的 agglomerative 和 partitional 两类hierarchy聚类算法