哈希表

(转)查找算法:哈希查找

廉价感情. 提交于 2020-02-23 10:31:42
什么是哈希查找呢?在弄清楚什么是哈希查找之前,我们要弄清楚哈希技术,哈希技术是在记录的存储位置和记录的 key 之间建立一个确定的映射 f(),使得每个 key 对应一个存储位置 f(key)。若查找集合中存在这个记录,则必定在 f(key) 的位置上。哈希技术既是一种存储方法,也是一种查找方法。 六种哈希函数 f(key) 的构造方法: 1、直接定址法 哈希地址:f(key) = a*key+b (a,b为常数) 这种方法的优点是:简单,均匀,不会产生冲突。但是需要事先知道 key 的分布情况,适合查找表较小并且连续的情况。 2、数字分析法 比如我们的11位手机号码“136xxxx5889”,其中前三位是接入号,一般对应不同运营公司的子品牌,如130是联通如意通,136是移动神州行等等。中间四位表示归属地。最后四位才是用户号。 若我们现在要存储某家公司员工登记表,如果用手机号码作为 key,那么极有可能前7位都是相同的,所以我们选择最后四位作为 f(key) 就是不错的选择。 3、平方取中法 故名思义,比如 key 是1234,那么它的平方就是1522756,再抽取中间的3位就是227作为 f(key) 。 4、折叠法 折叠法是将 key 从左到右分割成位数相等的几个部分(最后一部分位数不够可以短些),然后将这几部分叠加求和,并按哈希表的表长,取后几位作为 f(key) 。

数据结构与算法18—哈希表(散列表)

≯℡__Kan透↙ 提交于 2020-02-23 10:29:44
哈希表的概念 哈希表(Hash Table)是一种特殊的数据结构,它最大的特点就是可以快速实现查找、插入和删除。 我们知道,数组的最大特点就是:寻址容易,插入和删除困难;而链表正好相反,寻址困难,而插入和删除操作容易。那么如果能够结合两者的优点,做出一种寻址、插入和删除操作同样快速容易的数据结构,那该有多好。这就是哈希表创建的基本思想,而实际上哈希表也实现了这样的一个“夙愿”,哈希表就是这样一个集查找、插入和删除操作于一身的数据结构。 哈希表 (Hash Table):也叫散列表,是根据关键码值(key-value)而直接进行访问的数据结构,也就是我们常用到的map。 哈希函数 :也称为是散列函数,是Hash表的映射函数,它可以把任意长度的输入变换成固定长度的输出,该输出就是 哈希值 。哈希函数能使对一个数据序列的访问过程变得更加迅速有效,通过哈希函数,数据元素能够被很快的进行定位。 哈希表和哈希函数的标准定义:若关键字为k,则其值存放在h(k)的存储位置上。由此,不需比较便可直接取得所查记录。称这个对应关系f为哈希函数,按这个思想建立的表为哈希表。 设计出一个简单、均匀、存储利用率高的散列函数是散列技术中最关键的问题。 但是,一般散列函数都面临着冲突的问题。两个不同的关键字,由于散列函数值相同,因而被映射到同一表位置上。该现象称为冲突(Collision)或碰撞

哈希表中的查找

非 Y 不嫁゛ 提交于 2020-02-23 10:24:12
基本概念 哈希表 ( hash table ):又称散列表,其基本思路是,设要存储的元素个数是n,设置一个长度为m的连续存储单元,以每个元素的关键字作为自变量,通过哈希函数(h(k))把k映射到一个内存单元,并把该元素存在这个内存单元中,把像这样构造的线性表存储结构称为哈希表。 哈希冲突 ( hash collisions ):在构建哈希表时,出现两个不同关键词对应相同的哈希值,这种现象称作哈希冲突。 装填因子 ( loading factor ) : 设哈希表空间大小为n,填入表中元素个数为m,则$α=/frac{m}{n}$为哈希表的装填因子。 哈希查找两项基本工作: 计算位置:构造哈希函数确定关键词的位置 解决冲突:应用某种策略解决多个关键词位置相同的问题 这种查找的时间复杂度几乎是常量O(1),即查找时间与问题规模无关。 哈希函数的构造 一个好的哈希函数: 计算简单,以便提高转换速度 关键词对应地空间分布均匀,以尽量减少冲突 直接定址法 是以关键字k加上某个常量c作为哈希地址的方法,其哈希函数为:h(k)=k+c 特点:哈希函数计算简单。当关键字分布基本连续时,可以用直接定址法;否则,将造成内存单元大量浪费 除留余数法 是用关键字k除以整数p所得的余数作为哈希地址,表示为h(k)=k mod p 特点:计算比较简单,适用范围广,是最经常使用的一种哈希函数。

数据结构---->哈希表

浪尽此生 提交于 2020-02-23 10:23:25
一、哈希表 哈希表又称散列表。 哈希表存储的基本思想是:以数据表中的每个记录的关键字k为自变量,通过一种函数H(k)计算出函数值。把这个值解释为一块连续存储空间(即数组空间)的单元地址(即下标),将该记录存储到这个单元中。 在此称该函数H为哈希函数或散列函数。按这种方法建立的表称为哈希表或散列表。 例如,要将关键字值序列(3,15,22,24),存储到编号为0到4的表长为5的哈希表中。 计算存储地址的哈希函数可取除5的取余数算法H(k)=k% 5。则构造好的哈希表如图所示。 理想情况下,哈希函数在关键字和地址之间建立了一个一一对应关系,从而使得查找只需一次计算即可完成。由于关键字值的某种随机性,使得这种一一对应关系难以发现或构造。因而可能会出现不同的关键字对应一个存储地址。即 k1≠k2 , 但 H(k1)=H(k2 ), 这种现象称为 冲突 。 把这种具有不同关键字值而具有相同哈希地址的对象称 “ 同义词 ” 。 在大多数情况下,冲突是不能完全避免的。这是因为所有可能的关键字的集合可能比较大,而对应的地址数则可能比较少。 对于哈希技术,主要研究两个问题: (1)如何设计哈希函数以使冲突尽可能少地发生。 (2)发生冲突后如何解决 。 二、哈希函数 构造好的 哈希函数 的方法,应能使冲突尽可能地少,因而应具有较好的随机性。这样可使一组关键字的散列地址均匀地分布在整个地址空间

散列表简介

好久不见. 提交于 2020-02-23 10:11:58
散列表 也叫 哈希表 ,是一种根据关键字直接访问内存存储位置的数据结构,它是用一个数组实现的无序符号表.将键作为数组的索引而数组中键i处存储的就是它对应的值,这样就可以实现快速访问任意键的值.散列表是算法在时间和空间上做出权衡的经典例子. 散列表的查找算法分为 两步 : 1.用散列函数将键转化为数组索引,可能会出现多个键散列到相同的索引值上面,这是就要进行第二步了. 2.处理碰撞冲突(拉链法和线性探测法). 散列函数的概念 散列函数应该易于计算并且能够均匀分布所有的键, 即对于任意键, 0到M-1之间每个整数都有相同的可能性与之对应(与键无关), 严格地说每种类型的键都应该有对应的散列函数. 正整数 : 一般用 除留余数法 ,选择素数为M的数组,对于任意正整数k,计算k除以M的余数.可以有效的散布在0-M-1之间.如果M不是素数,可能不会均匀散布. 浮点数 :java中将键表示为 二进制 然后使用除留取余法 . 字符串 :java中charAt()返回一个非负16位整数,只要R足够小,不造成溢出,那么结果就会落在0至M-1之间 int hash = 0; for (int i = 0; i < s.length(); i++) hash = (R * hash + s.charAt(i)) % M; 组合键 :如果键中含有多个整型变量, 我们可以和String类型一样将它们混合起来

哈希表之数学原理

自作多情 提交于 2020-02-23 10:03:42
.NET程序员,大多数时候是不需要数学的。因为,有了.NET, 数据结构和算法的重要性被弱化了,操作系统接口相关的东西被强化了。程序员只要求管理好代码,而不是设计好算法。 计算机,我只学会了技术,所以很多问题我都感觉似是而非,感觉是在学习一个API,而不是在学一门科学。 最近要实现一个哈希表,我查找了很多哈希函数,高下难分。而且,网上有很多人做了实验,但是,很多数据居然是矛盾的,有的说这个好,有的说那个好。于是我在想,有没有一种理想的最优函数,这样的函数的效率是多少。我的函数,只要接近于这个值就可以了。这样的理想函数的分析,就必须理解计算机的科学部分,这个是计算机科学永恒的部分。 首先,是一个很简单的也是很实用的问题: “给一个url 做一个hash 值,通过这个hash 值,查找这个url 是否已经在数据库中存在了,我相信很多人都做过这个问题,很多人采用把一个url 转换成一个无符号的int 类型,然后通过这个int 类型进行查找。现在的问题是,如果我的网站有1000万个url,会有多少个url 是发生哈希冲突呢,也就是说,url链接不一样,但是映射成了相同的哈希值。”有多少冲突,读完这篇文章你也就会算了。 我今天讲的只是哈希表中的一种类型:链地址哈希表。这种哈希表是最常用的哈希表,PHP数组的内部实现,就是采用这样的哈希表。估计.net 的字典类,也是通过这样的方法。

两数之和

百般思念 提交于 2020-02-22 18:42:51
数组两数之和等于目标值 一.暴力求解 对于新手来说暴力求解史最友好的方法,两次for循环遍历整个数组即可求出所有解。缺点是时间复杂度为O(n^2) 二.先排序+双指针遍历 这种方法着实不太好用,要先排序(range,sorted)并不能改变其序号,再用两个指针i,j,一个从头开始搜索,一个从尾开始,直至两个指针相遇,占用内存高。 三.哈希法 python中的哈希实现方式为字典,理解字典可以更好的理解哈希 先创建一个哈希表(空字典)通过迭代将元素添加到哈希表(字典)中,同时我们比较该元素的对应元素是否已经存在与哈希表(字典)中,如果存在,我们直接返回答案。 我使用一次哈希,是两次哈希的简化版。二次哈希先导出完整的哈希表,不容易出错。 class Solution : def twoSum ( self , nums : List [ int ] , target : int ) - > List [ int ] : dict = { } for i , item in enumerate ( nums ) : if dict . get ( target - item ) is not None : return [ dict . get ( target - item ) , i ] else dict [ item ] = i 这种方法的好处是很快,时间复杂度为O(n)

无重复字符的最长子串

与世无争的帅哥 提交于 2020-02-21 05:26:04
这是一道十分经典的题目,但对与我这样一个入门级的小白来说,做出来并理解它也花了不少的功夫啊。 题目: 给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。 例: 输入: “abcabcbb” 输出: 3 解释: 因为无重复字符的最长子串是 “abc”,所以其长度为 3。 这道题我第一次见是在我们学校的一次考试上,当时只能想到暴力法,看网上很多人的暴力法,最多的也不过是O(N^3), 但是我当时却写了O(N^4),(手动哭泣)。 后来在Leetcode上面又看到了这道题 (https://leetcode-cn.com/problems/longest-substring-without-repeating-characters/) 于是下决心来研究一下,终于弄个明白了。 这里我主要介绍两个算法(暴力法就不说辽~) 1. 滑动窗口法 先选定start何end两个指针(这里的指针代表位置),均从第一个字符开始,向后移动end,如果end和从start到end这段的字串的每一个字符都不相同,则继续向后移,直至出现相同或者end到达字符串末尾,并随时记录长度。 若出现相等,(重点来了,敲黑板了),假设是位置i和end相等了,这时我们就要先将start移动到i+1的位置。 为什么要这么做呢,我们来想一下,这种情况会不会漏掉什么?现在是i和end重了

深入理解JDK8 HashMap

岁酱吖の 提交于 2020-02-18 08:36:18
笔者在上一篇文章《 深入理解JDK7 HashMap 》中详细解析了HashMap在JDK7中的实现原理,主要是围绕其put、get、resize、transfer等方法,本文将继续解析HashMap在JDK8中的具体实现,首先也将从put、get、resize等方法出发,着重解析HashMap在JDK7和JDK8中的具体区别,最后回答并解析一些常见的HashMap问题。在阅读本篇文章之前,建议阅读上一篇文章作为基础。 一、HashMap在JDK8中的结构 上一篇文章提到,HashMap在JDK7或者JDK8中采用的基本存储结构都是 数组+链表 形式,可能有人会提出疑问,HashMap在JDK8中不是 数组+链表+红黑树 吗?本文的回答 是 。至于为什么JDK8在一定条件下将链表转换为红黑树,我相信很多人都会回答: 为了提高查询效率 。基本答案可以说是这样的,JDK7中的HashMap对着Entry节点增多,哈希碰撞的概率在慢慢变大,这就直接导致哈希表中的单链表越来越长,这就大大降低了HashMap的查询能力,且时间复杂度可能会退化到O(n)。针对这种情况,JDK8做出了优化,就是在一定的条件下,链表会被转换为红黑树,提升查询效率。 HashMap在JDK8中基本结构示意图如下所示: 在上面的示意图可以看出,与JDK7的最大区别就是哈希表中不仅有链表,还有可能存在红黑树这种结构

哈希拉链法

不羁岁月 提交于 2020-02-18 08:25:07
前言 前面学习到的几种算法比如 红黑树 , 二叉搜索树 ,查找插入 时间复杂度 最快也只能到 O(logn) .现在介绍一种算法可以使查找插入 时间复杂度 达到常数级别。 散列表(Hash table) 也称为 哈希表 。是字典的一种抽象。比如说你要查一个字,通过这个字的拼音首字母,找到这个字的页码,然后翻到那页找就行了。这种方法直接把查找 时间复杂度 降到了常数。但是要牺牲一定的计算索引的时间。计算索引的那个函数称为 哈希函数 ( 散列函数``)。如果两个不同的 key`算出了同一个索引,此时就要用到一定的方法来解决哈希冲突。 哈希函数 哈希函数 一般具有如下特点。 相等的 key 产生相等的 哈希值 计算简单方便 哈希值 均匀分布。(若过度集中,则容易使效率降低到 o(n) ) 构造 哈希函数 有多种方法,这里不详细讲解。 哈希冲突 若两个不相等的 key 产生了相等的 哈希值 ,这时则需要采用 哈希冲突 。 拉链法 Java 标准库的 HashMap 基本上就是用 拉链法 实现的。 拉链法 的实现比较简单,将链表和数组相结合。也就是说创建一个链表数组,数组中每一格就是一个链表。若遇到哈希冲突,则将冲突的值加到链表中即可。 实现步骤 得到一个 key 计算 key 的 hashValue 根据 hashValue 值定位到 data[hashValue] 。( data