数据结构之哈希表(HASH)

前言   当我们在编程过程中,往往需要对线性表进行查找操作。在顺序表中查找时,需要从表头开始,依次遍历比较a[i]与key的值是否相等,直到相等才返回索引i;在有序表中查找时,我们经常使用的是二分查找,通过比较key与a[i]的大小来折半查找,直到相等时才返回索引i。最终通过索引找到我们要找的元素。   但是,这两种方法的效率都依赖于查找中比较的次数。我们有一种想法,能不能不经过比较,而是

大家好,又见面了,我是你们的朋友全栈君。

前言

   当我们在编程过程中,往往需要对线性表进行查找操作。在顺序表中查找时,需要从表头开始,依次遍历比较a[i]与key的值是否相等,直到相等才返回索引i;在有序表中查找时,我们经常使用的是二分查找,通过比较key与a[i]的大小来折半查找,直到相等时才返回索引i。最终通过索引找到我们要找的元素。
   但是,这两种方法的效率都依赖于查找中比较的次数。我们有一种想法,能不能不经过比较,而是直接通过关键字key一次得到所要的结果呢?这时,就有了散列表查找(哈希表)。

1、什么是哈希表

    要说哈希表,我们必须先了解一种新的存储方式—散列技术。
    散列技术是指在记录的存储位置和它的关键字之间建立一个确定的对应关系f,使每一个关键字都对应一个存储位置。即:存储位置=f(关键字)。这样,在查找的过程中,只需要通过这个对应关系f 找到给定值key的映射f(key)。只要集合中存在关键字和key相等的记录,则必在存储位置f(key)处。我们把这种对应关系f 称为散列函数或哈希函数。
    按照这个思想,采用散列技术将记录存储在一块连续的存储空间中,这块连续的存储空间称为哈希表。所得的存储地址称为哈希地址或散列地址。

2、哈希表查找步骤

   ①、存储数据时,将数据存入通过哈希函数计算所得哪那个地址里面。
   ②、查找时,使用同一个哈希函数通过关键字key计算出存储地址,通过该地址即可访问到查找的记录。

3、哈希冲突

  在理想的情况下,每一个 关键字,通过哈希函数计算出来的地址都是不一样的。但是在实际情况中,我们常常会碰到两个关键字key1≠key2,但是f(key1) = f(key2), 这种现象称为冲突,并把key1和key2称为这个散列函数的同义词。
  冲突的出现会造成查找上的错误,具体解决方法会在后文提到。

4、哈希函数的构造方法

(1)、原则

  ①、计算简单;
  ②、散列地址分布均匀。

(2)、构造方法

  ①、直接定址法:不常用
    取关键字或关键字的某个线性函数值为哈希地址:
    即:H(key) = key 或 H(key) = a*key+b
    优点:简单,均匀,不会产生冲突;
    缺点:需要实现直到关键字的分布情况,适合查找表比较小且连续的情况。
  
  ②、数字分析法
   数字分析法用于处理关键字是位数比较多的数字,通过抽取关键字的一部分进行操作,计算哈希存储位置的方法。
   例如:关键字是手机号时,众所周知,我们的11位手机号中,前三位是接入号,一般对应不同运营商的子品牌;中间四位是HLR识别号,表示用户号的归属地;最后四位才是真正的用户号,所以我们可以选择后四位成为哈希地址,对其在进行相应操作来减少冲突。
   数字分析法适合处理关键字位数比较大的情况,事先知道关键字的分布且关键字的若干位分布均匀。
   
  ③、平方取中法
   具体方法很简单:先对关键字取平方,然后选取中间几位为哈希地址;取的位数由表长决定,适用于不知道关键字的分布,而位数又不是很大的情况。
  
  ④、折叠法
   将关键字分成位数相同的几部分(最后一部分位数 可以不同),然后求这几部分的叠加和(舍去进位),并按照散列表的表长,取后几位作为哈希地址。
   适用于关键字位数很多,而且关键字每一位上数字分布大致均匀。
  
   ⑤、除留余数法
   此方法为最常用的构造哈希函数方法。对于哈希表长为m的哈希函数公式为:
   f(key) = key mod p (p <= m)
   此方法不仅可以对关键字直接取模,也可以在折叠、平方取中之后再取模。
   所以,本方法的关键在于选择合适的p,若是p选择的不好,就可能产生 同义词;根据前人经验,若散列表的表长为m,通常p为小于或等于表长(最好接近m)的最小质数或不包含小于20质因子的合数。
  
   ⑥、随机数法
   选择一个随机数,取关键字的随机函数值作为他的哈希地址。
   即:f(key) = random (key)
   当关键字的长度不等时,采用这个方法构造哈希函数较为合适。当遇到特殊字符的关键字时,需要将其转换为某种数字。

(3)、参考因素

   在实际应用过程中,应该视不同的情况采用不同的哈希函数。下列是一些参考因素:
    ①计算哈希地址所需的时间;
    ②关键字的长度;
    ③哈希表的大小;
    ④关键字的分布情况;
    ⑤查找的频率。
   选择哈希函数时,我们应该综合以上因素,选择合适的构建哈希函数的方法。

5、哈希冲突的解决

   前文提到,哈希冲突不能避免,所以我们需要找到方法来解决它。
   哈希冲突的解决方案主要有四种:开放地址法;再哈希;链地址法;公共溢出区法。

(1)、开放地址法  

   开放地址法就是指:一旦发生了冲突就去寻找下一个空的哈希地址,只要哈希表足够大,空的散列地址总能找到,并将记录存入。
   公式:Hi=(H(*key) + Di) mod m (i = 1,2,3,….,k k<=m-1)
   其中:H(key)为哈希函数;m为哈希表表长;Di为增量序列,有以下3中取法:
     ①Di = 1,2,3,…,m-1, 称为线性探测再散列;
     ②Di = 1²,-1²,2²,-2²,。。。,±k²,(k<= m/2)称为二次探测再散列
     ③Di = 伪随机数序列,称为伪随机数探测再散列。
     例如:在长度为12的哈希表中插入关键字为38的记录:
     这里写图片描述
     从上述线性探测再散列的过程中可以看出一个现象:当表中i、i+1位置上有记录时,下一个哈希地址为i、i+1、i+2的记录都将填入i+3的位置,这种本不是同义词却要争夺同一个地址的现象叫“堆积“。即在处理同义词的冲突过程中又添加了非同义词的冲突;但是,用线探测再散列处理冲突可以保证:只要哈希表未填满,总能找到一个不发生冲突的地方。

(2)、再哈希法

     公式:Hi = RHi(key) i = 1,2,…,k
     RHi均是不同的哈希函数,意思为:当繁盛冲突时,使用不同的哈希函数计算地址,直到不冲突为止。这种方法不易产生堆积,但是耗费时间。

(3)、链地址法

     将所有关键字为同义字的记录存储在一个单链表中,我们称这种单链表为同义词子表,散列表中存储同义词子表的头指针。
     如关键字集合为{19,14,23,01,68,20,84,27,55,11,10,79},按哈希函数H(key) = key mod 13;
     这里写图片描述
     链地址法解决了冲突,提供了永远都能找到地址的保证。但是,也带来了查找时需要遍历单链表的性能损耗。

(4)、公共溢出区法

     即设立两个表:基础表和溢出表。将所有关键字通过哈希函数计算出相应的地址。然后将未发生冲突的关键字放入相应的基础表中,一旦发生冲突,就将其依次放入溢出表中即可。
     在查找时,先用给定值通过哈希函数计算出相应的散列地址后,首先 首先与基本表的相应位置进行比较,如果不相等,再到溢出表中顺序查找。

6、哈希表查找算法的实现

   首先定义一个散列表的结构以及一些相关的常数。其中,HashTables是散列表结构。结构当中的elem为一个动态数组。

#define SUCCESS 1
#define UNSUCCESS 0
#define HASHSIZE 12    /*定义哈希表长为数组的长度*/
#define NULLKEY -32768
{
    int *elem;        /*数组元素存储基址,动态分配数组*/
    int count;        /*当前数据元素的个数*/
}HashTable;
int m = 0;            

初始化哈希表

/*初始化哈希表*/
Status InitHashTable(HashTable *H)
{
    int i;
    m = HASHSIZE;
    H->count = m;
    H->elem = (int *)malloc(m*sizeof(int));
    for(i = 0;i<m;i++)
        H->elem[i] = NULLKEY;

    return OK;
}   

定义哈希函数

/*哈希函数*/
int Hash(int key)
{
    return key % m;     /*除留取余法*/
}

插入操作

/*将关键字插入散列表*/
void InsertHash(HashTable *H,int key)
{
     int addr = Hash(Key);             /*求哈希地址*/
     while(H->elem[addr] != NULLKEY)         /*如果不为空则冲突*/
         addr = (addr + 1) % m;           /*线性探测*/
     H->elem[addr] = key;            /*直到有空位后插入关键字*/        
}   

查找操作

/*查找*/
Status SearchHash(HashTable H,int key,int *addr)
{
    *addr = Hash(key);        /*求哈希地址*/
    while(H.elem[*addr] != key)        /*若不为空,则冲突*/
    {
        *addr = (*addr + 1) % m;         /*线性探测*/
        if(H.elem[*addr) == NULLKEY || *addr == Hash(key))
        {/*如果循环回到原点*/
            return UNSUCCESS;        /*则说明关键字不存在*/
        }
    }
    return SUCCESS;
}   

7、总结

  1、哈希表就是一种以键值对存储数据的结构。
  2、哈希表是一个在空间和时间上做出权衡的经典例子。如果没有内存限制,那么可以
直接将键作为数组的索引。那么所查找的时间复杂度为O(1);如果没有时间限制,那么我们可以使用无序数组并进行顺序查找,这样只需要很少的内存。哈希表使用了适度的时间和空间来在这两个极端之间找到了平衡。只需要调整哈希函数算法即可在时间和空间上做出取舍。
     
     
     
     

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/124554.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 解决Visual Studio中scanf返回值被忽略问题

    解决Visual Studio中scanf返回值被忽略问题最近在使用VisualStudio编写c语言时遇到了scanf返回值被忽略问题,下面总结了几种解决方法:总结了如下几种解决方法:方法一scanf修改成scanf_s可以说scanf_s是vs编译器特有的,它认为scanf不安全,所以不允许你用而让你用它自己定义的scanf_s。方法二开头添加#define_CRT_SECURE_NO_WARNINGS方法三开头添加#…

    2022年10月23日
  • SCSA考试大纲[通俗易懂]

    SCSA考试大纲[通俗易懂]认证考试形式和结构一、试卷满分及时间试卷满分为120分,考试时间为80分钟,80分通过二、考试形式在线考试三、答题方式闭卷四、试卷内容知识结构试题比例网络基础15%信息安全基础5%数据传输安全15%上网行为安全30%边界安全20%…

  • php static

    php static当static用来修饰局部变量的时候,它就改变了局部变量的存储位置,从原来的栈中存放改为静态存储区。但是局部静态变量在离开作用域之后,并没有被销毁,而是仍然驻留在内存当中,直到程序结束,只不过我们不能

  • easyUI的时间控件[通俗易懂]

    easyUI的时间控件[通俗易懂]以前没怎么用过easyUI,今天用到时间控件,又了解到了一点东西时间控件的样式<inputclass="easyui-datetimebox"id="starttime"name="starttime"style="width:150px"/>然后通过js动态的添加的时候,使用append添加container.append(‘开始时间<inputclass="easyui-d

  • vmware安装虚拟机失败_虚拟机无法安装系统

    vmware安装虚拟机失败_虚拟机无法安装系统虚拟机给我的编程工作确实带了很多方便,但是虚拟机的一个最大挑战是硬件赶不上,速度太慢了。最近一直在致力于虚拟机上Win7专业版平台上SQLServer2005+VisualStudio2012系统开发,最初还可以,但是越到后面速度越慢。最后决定重新启用记忆版的XP系统。记得最初接触的Windows系统是Win98,是在高中时候与其解下不解之缘的。于是,今天在茶余饭后,开启XP模式。

  • JVM优化之优化常用参数和工具

    JVM优化之优化常用参数和工具JVM优化之优化常用参数和工具内容提要jvm运行参数和参数设置jvm内存模型jmap命令的使用以及通过MAT工具分析定位分析内存溢出的方法jstack的使用visualJVM工具使用为什么要优化JVM1.生产环境需要承载更多的并发要求,对底层的优化能显著提升性能,节约成本2.测试和生产环境的不同可能导致我们无法实时了解具体性能问题,我们需要借助对JVM了解分析问题所在。…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号