算法

文本关键词提取算法

…衆ロ難τιáo~ 提交于 2020-03-01 02:08:10
文本关键词提取算法 转自: http://www.cnblogs.com/a198720/p/3990666.html 1.TF-IDF 2.基于语义的统计语言模型 文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。 采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。 3.TF-IWF文档关键词自动提取算法 针对现有TF-IWF的领域文档关键词快速提取算法.该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典 分词等方法提高了关键词提取的速度及准确度.对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在 O(n)时间内完成. 4.基于分离模型的中文关键词提取算法研究 关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关 键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理:关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。该 算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明

TextRank算法提取关键词的Java实现

心已入冬 提交于 2020-03-01 02:03:03
转载: 码农场 » TextRank算法提取关键词的Java实现 谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF-IDF效果一般,不如 TextRank 好。 TextRank是在 Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口) 投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论。TextRank也 不例外: PageRank的计算公式: 正规的TextRank公式 正规的TextRank公式在PageRank的公式的基础上,引入了边的权值的概念,代表两个句子的相似度。 但是很明显我只想计算关键字,如果把一个单词视为一个句子的话,那么所有句子(单词)构成的边的权重都是0(没有交集,没有相似性),所以分子分母的权值w约掉了,算法退化为PageRank。所以说,这里称关键字提取算法为PageRank也不为过。 另外,如果你想提取关键句(自动摘要)的话,请参考姊妹篇《 TextRank算法自动摘要的Java实现 》。 TextRank的Java实现 先看看测试数据: 程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员

PID控制算法

半世苍凉 提交于 2020-03-01 01:27:45
PID控制算是应用非常广泛的控制算法了。小到控制一个元件的温度,大到控制无人机的飞行姿态和飞行速度,智能车的电机舵机输出等。 一、案例 偏差 = 目标值 - 真实值。假如,我现在开始对加热器进行加热,我的目标温度是100度,但是此时从温度传感器传回来的实际温度值是20度,此时的偏差就是80度。如何通过控制算法来解决这个问题呢?往下看。 二、位式控制算法 在传统的位式控制算法中,输出信号只有2种状态:高电平或低电平。针对上述例子,温度传感器返回来的真实值与目标值之间有80度的误差之大,经过位式控制算法后必然会输出一个高电平作用在加热器负载上。然后经过位式控制算法的调节,温度一定会达到目标值100度。当温度达到100度时,系统输出低电平对负载停止加热。但是,由于负载电器具有一定的惯性,它仍然会加热一段时间。经试验得出此误差会在二三十度,也就是实际温度会达到120-130度。这是一个很大的误差!位式控制算法无法解决,于是引入了PID控制算法。 三、PID控制算法 1、简介PID PID控制算法与位式控制算法不同的是,PID不再是只有两种输出状态(高电平或低电平),而是引入了PWM脉宽,按脉宽比例精确输出(输出范围在0-1之间)。 P:proportion(比例),就是对偏差E乘以一个常数。 I:Integral(积分), 就是对偏差E进行积分运算。 D:Derivative(微分)

算法分析:使用布隆过滤器(Bloom Filter)进行大数据量排序

半世苍凉 提交于 2020-02-29 21:53:27
题目大意:移动公司需要对已经发放的所有139段的号码进行统计排序,已经发放的139号码段的文件都存放在一个文本文件中(原题是放在两个文件中),一个号码一行,现在需要将文件里的所有号码进行排序,并写入到一个新的文件中;号码可能会有很多,最多可能有一亿个不同的号码(所有的139段号码),存入文本文件中大概要占1.2G的空间;JVM最大的内存在300以内,程序要考虑程序的可执行性及效率;只能使用Java标准库,不得使用第三方工具。 这是个典型的大数据量的排序算法问题,首先要考虑空间问题,一下把.2G的数据读入内存是不太可能的,就算把壹亿条数据都转换成INT类型存储也要占接近400M的空间。当时做个题目我并没有想太多的执行效率问题,主要就考虑了空间,而且习惯性的想到合并排序,基本思想是原文件分割成若干个小文件并排序,再将排序好的小文件合并得到最后结果,算法大概如下: 1、顺序读取存放号码文件的中所有号码,并取139之后的八位转换为int类型;每读取号码数满一百万个(这个数据可配置)将已经读取的号码排序并存入新建的临时文件。 2、将所有生成的号码有序的临时文件合并存入结果文件。 这个算法虽然解决了空间问题,但是运行效率极低,由于IO读写操作太多,加上步骤1中的排序的算法(快速排序)本来效率就不高(对于电话排序这种特殊情况来说),导致1亿条数据排序运行3个小时才有结果。

链表的应用(LRU缓存淘汰算法)

江枫思渺然 提交于 2020-02-29 20:41:18
缓存:是一种提高数据读取性能的技术,在硬件设计、软件开发中都有着非常广泛的应用,比如常见的 CPU 缓存、数据库缓存、浏览器缓存等等。 LRU:缓存的大小有限,当缓存被用满时数据有的需要删除,有的需要保留,这里我们采用的策略是LRU(最近最少使用)缓存淘汰算法。 LRU缓存淘汰算法:我们维护一个有序单链表,越靠近链表尾部的结点是越早之前访问的。当有一个新的数据被访问时,我们从链表头开始顺序遍历链表。 1. 如果此数据之前已经被缓存在链表中了,我们遍历得到这个数据对应的结点,并将其从原来的位置删除,然后再插入到链表的头部。 2. 如果此数据没有在缓存链表中,又可以分为两种情况: 如果此时缓存未满,则将此结点直接插入到链表的头部; 如果此时缓存已满,则链表尾结点删除,将新的数据结点插入链表的头部。 来源: CSDN 作者: UCSD☁️ 链接: https://blog.csdn.net/qq_43536300/article/details/104573084

MS

妖精的绣舞 提交于 2020-02-29 19:35:44
Project 1.AML 有label的: - down sampling /xgboost/Hql 无label的: - Autoencoder 2.CRANE: 改正features / add new features 3. Branchpiitsstop - R/R shiny/Xgboost explainer/Shap value 4. Spark - 改写pyspark - Audit report 重新clustering (LDA) hql和sql 的区别: https://blog.csdn.net/qq_28633249/article/details/77884062 项目用到的算法 : Xgboost(原理 https://zhuanlan.zhihu.com/p/92229766 /调参 https://zhuanlan.zhihu.com/p/29649128 ); boosting/bagging/stacking https://zhuanlan.zhihu.com/p/41809927 ;Decisoin tree;Autoencoder;LDA 机器学习算法 1.常用算法 LR https://zhuanlan.zhihu.com/p/40994642 SVM https://zhuanlan.zhihu.com/p/84796233

机器学习基本概念梳理

杀马特。学长 韩版系。学妹 提交于 2020-02-29 18:29:51
1.1 基本术语 数据集(data set) :数据记录的集合 示例/样本(sample) :每条记录,即对一个事件/对象的描述 属性(attribute)/特征(feature) :反映时间或对象在某方面的表现或性质的事项 属性空间(attribute space)/样本空间(sample space)/输入空间 :属性张成的空间 由于样本空间中每一点对应于一个坐标向量,因此一个 示例 也成为一个 特征向量(feature vector) 学习(learning)/训练(training) :从数据中学习模型的过程 训练数据(training data): 训练过程中使用的数据 训练集(training set) :训练样本组成的集合 假设(hypothesis) :学得的关于数据的某种潜在规律 真相/真实(ground-truth) :关于数据的某种潜在规律自身 标记空间(label space)/输出空间 :标记的集合 测试(testing) :学得模型后,使用其进行预测的过程 测试样本(tesing sample) :被预测的样本 根据预测的值的类型,学习任务可以被划分为 分类(classification) , 回归(regression) , 聚类(clustering) ,etc. 根据训练数据是否有标记,学习任务可被划分为 监督学习(supervised

【图像算法】彩色图像分割专题一:颜色空间1(原理)

大兔子大兔子 提交于 2020-02-29 18:17:20
【图像算法】彩色图像分割专题一:颜色空间1(原理) SkySeraph May 3rd 2011 HQU Email: zgzhaobo@gmail.com QQ:452728574 Latest Modified Date:May 13rd 2011 HQU 暂时把收集的一些有用的资料链接给上,以后再补工程源码~~ 补上: 源码 : http://www.cnblogs.com/skyseraph/archive/2011/05/05/2038317.html 结果 : http://www.cnblogs.com/skyseraph/archive/2011/05/05/2038308.html Educational Color Applets HomePage 典型的色彩空间 - xiaoxin_ling的专栏 - CSDN博客 颜色空间大全_百度文库 颜色空间_百度文库 Colorspace_百度文库 HSI、HSV、RGB、CMYK、HSL、HSB、Ycc、XYZ、Lab、YUV颜色模型的区别 - 网络笔记 - CSDN博客 CIE标准色度学系统 List of colors - Wikipedia, the free encyclopedia 常用颜色的RGB值及中英文名称 - tingya的专栏 - CSDN博客 颜色代码 - 水木白艺术坊的日志 - 网易博客

加密算法(DES,AES,RSA,MD5,SHA1,Base64)比较

末鹿安然 提交于 2020-02-29 17:15:20
转载自:http://www.cnblogs.com/sochishun/p/7028056.html 加密算法(DES,AES,RSA,MD5,SHA1,Base64)比较和项目应用 加密技术通常分为两大类:"对称式"和"非对称式"。 对称性加密算法: 对称式加密就是加密和解密使用同一个密钥。信息接收双方都需事先知道密匙和加解密算法且其密匙是相同的,之后便是对数据进行加解密了。对称加密算法用来对敏感数据等信息进行加密。 非对称算法: 非对称式加密就是加密和解密所使用的不是同一个密钥,通常有两个密钥,称为"公钥"和"私钥",它们两个必需配对使用,否则不能打开加密文件。发送双方A,B事先均生成一堆密匙,然后A将自己的公有密匙发送给B,B将自己的公有密匙发送给A,如果A要给B发送消 息,则先需要用B的公有密匙进行消息加密,然后发送给B端,此时B端再用自己的私有密匙进行消息解密,B向A发送消息时为同样的道理。 散列算法: 散列算法,又称哈希函数,是一种单向加密算法。在信息安全技术中,经常需要验证消息的完整性,散列(Hash)函数提供了这一服务,它对不同长度的输入消息,产生固定长度的输出。这个固定长度的输出称为原输入消息的"散列"或"消息摘要"(Message digest)。散列算法不算加密算法,因为其结果是不可逆的,既然是不可逆的,那么当然不是用来加密的,而是签名。 对称性加密算法有

【006】【JVM——垃圾收集器总结】

杀马特。学长 韩版系。学妹 提交于 2020-02-29 17:08:31
JVM ——垃圾收集器总结 垃圾收集器概览 收集算法是内存回收的方法论,垃圾收集据是内存回收的具体实现。 Java 虚拟机规范中对垃圾收集器应该如何实现没有规定,不同的厂商、不同版本的虚拟机所提供的垃圾收集器可能会有很大差别,一般都会提供参数供用户根据自己的所用特点和要求组合出各个年代所使用的收集器。下面是基于 JDK 1.7 Update 14 之后的 HotSpot 虚拟机垃圾收集器。如果两个收集器之间有连线就说明它们可以搭配使用。 直到现在还没有最好的收集器,更加设有万能的收集器,只是对具体应用选择最合适的收集器。 垃圾收集器概览图如下: Serial 收集器 Serial 收集器是最基本、历史最悠久的收集器,它是一个单线程的收集器,即它只会使用一个 CPU 或一条收集线程去完成垃圾收集工作,而且在进行垃圾收集时, 必须暂停其他所有的工作钱程,直到它收集结束,虽然它有很大缺点,但依然是虚拟机运行在 Client 模式下的默认新生代收集器。它也有着优于其他收集器的地方: 简单而高效。 Serial 收集器没有线程交互的开销, 专心做垃圾收集,可以获得很高的单线程收集效率。 运行示意图如下: ParNew 收集器 ParNew 收集器其实就是 Serial 收集器的多线程版本,除了使用多条线程进行垃圾收集之外,其余行为包括 Serial 收集器可用的所有控制参数、、收集算法