哈希函数

哈希表c++实现

拟墨画扇 提交于 2019-12-22 12:02:51
哈希函数计算地址 有冲突用探测函数获得新地址解决 为什么哈希函数查找速度快,因为他是索引查找,最好o(1),别扯那个多没用的哈希函数计算地址这些东西。 # include <iostream> using namespace std ; const int maxnum = 15 ; int HT [ maxnum ] ; //哈希地址表 int HC [ maxnum ] ; //计算单个地址的比较次数 int m = maxnum ; //线性探测总的步长 = 哈希地址表长,因为要遍历一个周期查看是否有空余位置 //哈希函数 int H ( int key ) { return key % 13 ; } void init ( ) { for ( int i = 0 ; i < maxnum ; i ++ ) { HT [ i ] = - 1 ; } for ( int i = 0 ; i < maxnum ; i ++ ) { HC [ i ] = 0 ; } } //冲突探测 //(线性探测) int LineDetect ( int H0 , int key , int & cnt ) //根据原散列地址H0来计算新的Hi不冲突地址,用cnt计算总比较次数 { int Hi ; for ( int i = 1 ; i < m ; i ++ ) //自身不需要再比较了 {

使用哈希加盐法来为密码加密(补充JAVA的实现)

南楼画角 提交于 2019-12-20 03:23:04
使用哈希加盐法来为密码加密 转自:http://www.cnblogs.com/jfzhu/p/4023439.html 转载请注明出处 (一)为什么要用哈希函数来加密密码 如果你需要保存密码(比如网站用户的密码),你要考虑如何保护这些密码数据,象下面那样直接将密码写入数据库中是极不安全的,因为任何可以打开数据库的人,都将可以直接看到这些密码。 解决的办法是将密码加密后再存储进数据库,比较常用的加密方法是使用哈希函数(Hash Function)。哈希函数的具体定义,大家可以在网上或者相关书籍中查阅到,简单地说,它的特性如下: (1)原始密码经哈希函数计算后得到一个哈希值 (2)改变原始密码,哈希函数计算出的哈希值也会相应改变 (3) 同样的密码,哈希值也是相同的 (4) 哈希函数是单向、不可逆的。也就是说从哈希值,你无法推算出原始的密码是多少 有了哈希函数,我们就可以将密码的哈希值存储进数据库。用户登录网站的时候,我们可以检验用户输入密码的哈希值是否与数据库中的哈希值相同。 由于哈希函数是不可逆的,即使有人打开了数据库,也无法看到用户的密码是多少。 那么存储经过哈希函数加密后的密码是否就是安全的了呢?我们先来看一下几种常见的破解密码的方法。 (二)几种常见的破解密码的方法 最简单、常见的破解方式当属字典破解(Dictionary Attack)和暴力破解(Brute Force

算法打基础——HashⅡ: 全域哈希与完美哈希

狂风中的少年 提交于 2019-12-18 03:29:53
这一节涉及数学超级多,各种数论知识,各种不明觉厉! 看了几遍,才勉强看懂一些,所以这 篇稍微简单的介绍着两种hash table, 免得瞎说说错了。 这一讲的主要知识点是: 1. 全域哈希及构造 2. 完美哈希 1. 全域哈希及构造 介绍全域哈希之前,要先讨论一下普通哈希的一个缺点。 举个charles举得那个例子:如果你 和一个竞争对手同时为一家公司做compiler的symbol table, 公司要求你们代码共享 (o(╯□╰)o),你们做好后公司评判的标准就是 你俩互相提供一些测试样例,谁的效率高就买 谁的。 然后, 普通哈希的缺点 就出来了:对任意的hash函数h,总存在一组keys,使得 , 对某个槽i。即我总可以找到一组键值,让他们都映射到同一个槽里面,这样效率 就跟离链表差不多了 解决的思想就是:独立于键值, 随机 的选择hash 函数。这就跟快排中为避免最差情况时随机化 版本差不多。但是选取hash function的全局域是不能乱定的,否则也打不到理想的性能。 下面就给出全域哈希的定义: 设U是key的全局域, 设\(\mathcal{H}\) 是哈希函数的有限集合,每一个都是将U映射到 {0,1,..,m-1},即table的槽内。 如果对所有不等的\(x,y\in U\),有 换句话说,就是对于任意的不相等key的x和y, 从哈希函数集中选择一个哈希函数

【算法笔记】散列表(上)

こ雲淡風輕ζ 提交于 2019-12-15 03:35:20
散列表(上) 1.如何理解散列思想? 2.有哪些散列函数? 1 散列函数的定义 2 散列函数设计的基本要求 3.散列冲突的解决方法是什么? 1. 开放寻址法 2 链表法 4 Word 文档中单词拼写检查功能是如何实现的? 5. 总结 1.如何理解散列思想? 散列表的英文叫“Hash Table”,我们平时也叫它“哈希表”或者“Hash 表”; 散列表用的是数组支持按照下标随机访问数据的特性,所以散列表其实就是数组的一种扩展,由数组演化而来。可以说,如果没有数组,就没有散列表。 散列表使用的是数组支持按照下标随机访问的时候,时间复杂度是O(1)的特性; 通过散列函数把元素的键值映射为下标,然后将数据存储在数组中对应的下标的位置; 当按照键值查询元素的时候,用同样的散列函数,间键值转化为数组下标,从对应的数组下标的位置取数据; 2.有哪些散列函数? 1 散列函数的定义 散列函数在散列表中起着非常关键的作用。 散列函数,顾名思义,它是一个函数。可以把它定义成 hash(key),其中 key 表示元素的键值,hash(key) 的值表示经过散列函数计算得到的散列值。 2 散列函数设计的基本要求 散列函数计算得到的散列值是一个非负整数; 如果 key1 = key2,那 hash(key1) == hash(key2); 如果 key1 ≠ key2,那 hash(key1) ≠ hash

来吧!一文彻底搞定哈希表!

泪湿孤枕 提交于 2019-12-12 01:09:59
哈希表是个啥? 小白 : 庆哥,什么是哈希表?这个哈希好熟悉,记得好像有HashMap和HashTable之类的吧,这是一样的嘛?😊 庆哥: 这个哈希确实经常见😂,足以说明它是个使用非常频繁的玩意儿,而且像你说的HashMap和HashTable之类的与哈希这个词肯定是有关系的,那哈希是个啥玩意啊,这个咱们还是得先来搞明白啥是个哈希表。😎 我们看看百科解释吧: 散列表 ( Hash table ,也叫 哈希表 ),是根据 键 (Key)而直接访问在内存存储位置的 数据结构 。也就是说,它通过计算一个关于键值的函数,将所需查询的数据 映射 到表中一个位置来访问记录,这加快了查找速度。这个映射函数称做 散列函数 ,存放记录的数组称做 散列表 。 怎么样?看到这个,你知道哈希表是什么了嘛? 小白: 我之前是对哈希表一窍不通啊,不过看了这个百科的解释,我知道如下这些关于哈希表的简单知识点: 1、哈希表其实也叫散列表,两个是一个玩意,英文是Hash Table 2、哈希表是一个数据结构 这两个概念是比较清晰的,至于其他的说什么映射函数叫做散列函数,存放记录的数组叫做散列表这个就有点模糊了,尤其说存放记录的数组称为散列表,那意思是哈希表是个数组?🤣 庆哥: 首先你说的很清晰的两点说的是很准确的,哈希表也叫做散列表,这只不过是叫法而已,英文单词是Hash table

详解布隆过滤器的原理,使用场景和注意事项

↘锁芯ラ 提交于 2019-12-10 10:45:08
什么是布隆过滤器 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在” 。 相比于传统的 List、Set、Map 等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的。 实现原理 HashMap 的问题 讲述布隆过滤器的原理之前,我们先思考一下,通常你判断某个元素是否存在用的是什么?应该蛮多人回答 HashMap 吧,确实可以将值映射到 HashMap 的 Key,然后可以在 O(1) 的时间复杂度内返回结果,效率奇高。但是 HashMap 的实现也有缺点,例如存储容量占比高,考虑到负载因子的存在,通常空间是不能被用满的,而一旦你的值很多例如上亿的时候,那 HashMap 占据的内存大小就变得很可观了。 还比如说你的数据集存储在远程服务器上,本地服务接受输入,而数据集非常大不可能一次性读进内存构建 HashMap 的时候,也会存在问题。 布隆过滤器数据结构 布隆过滤器是一个 bit 向量或者说 bit 数组,长这样: 如果我们要映射一个值到布隆过滤器中,我们需要使用 多个不同的哈希函数 生成 多个哈希值, 并对每个生成的哈希值指向的 bit 位置 1,例如针对值 “baidu”

海量数据处理:算法

与世无争的帅哥 提交于 2019-12-08 19:06:42
海量信息即大规模数据,随着互联网技术的发展,互联网上的信息越来越多,如何从海量信息中提取有用信息成为当前互联网技术发展必须面对的问题。 在海量数据中提取信息,不同于常规量级数据中提取信息,在海量信息中提取有用数据,会存在以下几个方面的问题: (1)数据量过大,数据中什么情况都可能存在,如果信息数量只有20条,人工可以逐条进行查找、比对,可是当数据规模扩展到上百条、数千条、数亿条,甚至更多时,仅仅只通过手工已经无法解决存在的问题,必须通过工具或者程序进行处理。 (2)对海量数据信息处理,还需要有良好的软硬件配置,合理使用工具,合理分配系统资源。通常情况下,如果需要处理的数据量非常大,超过了TB级,小型机、大型工作站是要考虑的,普通计算机如果有好的方法也可以考虑,如通过联机做成工作集群。 (3)对海量信息处理时,要求很高的处理方法和技巧,如何进行数据挖掘算法的设计以及如何进行数据的存储访问等都是研究的难点。 针对海量数据的处理,可以使用的方法非常多,常见的方法有Hash法、Bit-map法、Bloom filter法、数据库优化法、倒排索引法、外排序法、Trie树、堆、双层桶法以及MapReduce法。 Hash法 哈希函数的特点 哈希函数的构建方法 解决冲突的方法 Bit-map法 Bloom filter法 数据库优化法 倒排索引法 外排序法 Trie树 堆 双层桶法

海量数据处理:算法

感情迁移 提交于 2019-12-08 17:55:57
海量信息即大规模数据,随着互联网技术的发展,互联网上的信息越来越多,如何从海量信息中提取有用信息成为当前互联网技术发展必须面对的问题。 在海量数据中提取信息,不同于常规量级数据中提取信息,在海量信息中提取有用数据,会存在以下几个方面的问题: (1)数据量过大,数据中什么情况都可能存在,如果信息数量只有20条,人工可以逐条进行查找、比对,可是当数据规模扩展到上百条、数千条、数亿条,甚至更多时,仅仅只通过手工已经无法解决存在的问题,必须通过工具或者程序进行处理。 (2)对海量数据信息处理,还需要有良好的软硬件配置,合理使用工具,合理分配系统资源。通常情况下,如果需要处理的数据量非常大,超过了TB级,小型机、大型工作站是要考虑的,普通计算机如果有好的方法也可以考虑,如通过联机做成工作集群。 (3)对海量信息处理时,要求很高的处理方法和技巧,如何进行数据挖掘算法的设计以及如何进行数据的存储访问等都是研究的难点。 针对海量数据的处理,可以使用的方法非常多,常见的方法有Hash法、Bit-map法、Bloom filter法、数据库优化法、倒排索引法、外排序法、Trie树、堆、双层桶法以及MapReduce法。 Hash法 哈希函数的特点 哈希函数的构建方法 解决冲突的方法 Bit-map法 Bloom filter法 数据库优化法 倒排索引法 外排序法 Trie树 堆 双层桶法

java 查找算法

*爱你&永不变心* 提交于 2019-12-06 20:46:31
1、顺序查找 public class OrderSearch { /**顺序查找平均时间复杂度 O(n) * @param searchKey 要查找的值 * @param array 数组(从这个数组中查找) * @return 查找结果(数组的下标位置) */ public static int orderSearch(int searchKey,int... array){ for(int i=0;i<array.length;i++){ if(array[i]==searchKey){ return i; } } return -1; } /**测试查找结果 * @param args */ public static void main(String[] args) { int[] test=new int[]{1,2,29,3,95,3,5,6,7,9,12};//升序序列 int index=OrderSearch.orderSearch(95, test); System.out.println("查找到的位置 :"+ index); } } 二分查找 算法思想:又叫折半查找, 要求待查找的序列有序 。每次取中间位置的值与待查关键字比较,如果中间位置的值比待查关键字大,则在前半部分循环这个查找的过程,如果中间位置的值比待查关键字小,则在后半部分循环这个查找的过程

【浅析】|白话布隆过滤器BloomFilter

无人久伴 提交于 2019-12-06 10:11:01
通过本文将了解到以下内容: 查找问题的一般思路 布隆过滤器的基本原理 布隆过滤器的典型应用 布隆过滤器的工程实现 场景说明: 本文阐述的场景均为普通单机服务器、并非分布式大数据平台,因为在大数据平台下问题就是另外一种考虑方式了,因此本文只描述贫穷落后一穷二白的场景,俨然有种60年代先辈们在戈壁攻克原子弹的感觉。 1.查找问题的一般思路 查找问题是出现频率极高的问题,来看一道面试题: 给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件所有共同的URL。 一般思路:面对一般的问题,根据不同的数据规模,转换为计算机问题之后就落地到实际的数据结构: 线性结构:数组、链表、 容器结构:集合、Map、HashTable 树形结构:AVL、RBTree、BTree 但是上述的结构都是将待查找数据直接存储,如果是大数据量,这样虽然保证了准确性但是空间消耗会非常大,实际是不可行的。 苛求条件下的思路: 把待查数据进行信息无缺失地压缩 这句话的意思就是:对于公民可以使用身份证来独立唯一表示此个体,而无需太多诸如性别、出生日期、出生地、履历等描述,这种转换就相当于在信息无缺失的情况下,使用更少的特征来表示。还有一个例子就是:文言文往往篇幅很短,翻译为白话文可能很长,所以文言文就可以认为是白话文的信息无缺失压缩。