字符串匹配算法_多字符串匹配

字符串匹配算法_多字符串匹配文章目录1.BM(Boyer-Moore)算法1.BM(Boyer-Moore)算法思想:有模式串中不存在的字符,那么肯定不匹配,往后多移动几位,提高效率BM原理:坏字符规则,好后缀规则…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

1. BM(Boyer-Moore)算法

  • 思想:有模式串中不存在的字符,那么肯定不匹配,往后多移动几位,提高效率
    在这里插入图片描述
  • BM原理:坏字符规则,好后缀规则

1.1 坏字符规则

在这里插入图片描述

  • 利用坏字符规则,BM算法在最好情况下的时间复杂度非常低,是O(n/m)。比如,主串是aaabaaabaaabaaab,模式串是aaaa。每次比对,模式串都可以直接后移四位,所以,匹配具有类似特点的模式串和主串的时候,BM算法非常高效。
  • 单纯使用坏字符规则还是不够的。因为根据 si-xi计算出来的移动位数有可能是负数,比如主串是aaaaaaaaaaaaaaaa,模式串是baaa。不但不会向后滑动模式串,还有可能倒退。所以,BM算法还需要用到“好后缀规则”。

1.2 好后缀规则

在这里插入图片描述
从好后缀的后缀子串中,找一个最长的且和模式串的前缀子串匹配的 {v},滑动至 {v} 对齐
在这里插入图片描述

1.3 两种规则如何选择

  • 分别计算好后缀和坏字符规则往后滑动的位数,取大的,作为滑动位数(还可以避免负数)

2. BM算法代码实现

2.1 坏字符

  • 找到坏字符在模式串中的位置(有重复的,则是靠后的那个)
    采用哈希,而不是遍历。
    在这里插入图片描述
#define SIZE 256 //字符集字符数
void generateBadChar(char *b, int m, int *badchar)//(模式串字符b,模式串长度m,模式串的哈希表)
{ 
   
    int i, ascii;
    for(i = 0; i < SIZE; ++i)
    { 
   
        badchar[i] = -1;//哈希表初始化为-1
    }
    for(i = 0; i < m; ++i)
    { 
   
        ascii = int(b[i]);  //计算字符的ASCII值
        badchar[ascii] = i;//重复字符被覆盖,记录的是最后出现的该字符的位置
    }
}

在这里插入图片描述

int str_bm(char *a, int n, char *b, int m)
//只考虑坏字符方法的程序框架
{ 
   
    int *badchar = new int [SIZE];//记录模式串中每个字符最后出现的位置
    generateBadChar(b,m,hash);     //构建坏字符哈希表
    int i = 0, j;
    while(i < n-m+1)
    { 
   
        for(j = m -1; j >= 0; --j)  //模式串从后往前匹配
        { 
   
            if(a[i+j] != b[j])
                break;  //坏字符对应模式串中的下标是j
        }
        if(j < 0)   //匹配成功
        { 
   
            return i;   //返回主串与模式串第一个匹配的字符的位置
        }
        //这里等同于将模式串往后滑动 j-badchar[int(a[i+j])] 位
        i = i + (j - badchar[int(a[i+j])]);
    }
    return -1;
}

2.2 好后缀

  • 在模式串中,查找跟好后缀匹配的另一个子串
  • 在好后缀的后缀子串中,查找最长的、能跟模式串前缀子串匹配的后缀子串

不考虑效率的话,上面两个操作都可以暴力查找;
解决办法: 预先对模式串进行处理。
在这里插入图片描述
在这里插入图片描述
实现过程:
在这里插入图片描述
预处理模式串,填充suffix,prefix

void generateGS(char *b, int m, int *suffix, bool *prefix)
//预处理模式串,填充suffix,prefix
{ 
   
    int i, j, k;
    for(i = 0; i < m; ++i)//两个数组初始化
    { 
   
        suffix[i] = -1;
        prefix[i] = false;
    }
    for(i = 0; i < m-1; ++i)//b[0,i]
    { 
   
        j = i;
        k = 0;//公共后缀子串长度(模式串尾部取k个出来,分别比较)
        while(j >= 0 && b[j] == b[m-1-k])//与b[0,m-1]求公共后缀子串
        { 
   
            --j;
            ++k;
            suffix[k] = j+1;
            //相同后缀子串长度为k时,该子串在b[0,i]中的起始下标
            // (如果有多个相同长度的子串,被赋值覆盖,存较大的)
        }
        if(j == -1)//查找到模式串的头部了
            prefix[k] = true;//如果公共后缀子串也是模式串的前缀子串
    }
}

计算滑动位数

  • case1:
    在这里插入图片描述
  • case2:
    在这里插入图片描述
  • case3:(以上都不成立,移动整个模式串(长度m))
    在这里插入图片描述

2.3 完整代码

/** * @description: 字符匹配BM算法 * @author: michael ming * @date: 2019/6/18 22:19 * @modified by: */
#include <algorithm>
#include <string>
#include <iostream>
using namespace std;
#define SIZE 256 //字符集字符数
void generateBadChar(char *b, int m, int *badchar)//(模式串字符b,模式串长度m,模式串的哈希表)
{ 

int i, ascii;
for(i = 0; i < SIZE; ++i)
{ 

badchar[i] = -1;//哈希表初始化为-1
}
for(i = 0; i < m; ++i)
{ 

ascii = int(b[i]);  //计算字符的ASCII值
badchar[ascii] = i;//重复字符被覆盖,记录的是最后出现的该字符的位置
}
}
void generateGS(char *b, int m, int *suffix, bool *prefix)//预处理模式串,填充suffix,prefix
{ 

int i, j, k;
for(i = 0; i < m; ++i)//两个数组初始化
{ 

suffix[i] = -1;
prefix[i] = false;
}
for(i = 0; i < m-1; ++i)//b[0,i]
{ 

j = i;
k = 0;//公共后缀子串长度(模式串尾部取k个出来,分别比较)
while(j >= 0 && b[j] == b[m-1-k])//与b[0,m-1]求公共后缀子串
{ 

--j;
++k;
suffix[k] = j+1;
//相同后缀子串长度为k时,该子串在b[0,i]中的起始下标
// (如果有多个相同长度的子串,被赋值覆盖,存较大的)
}
if(j == -1)//查找到模式串的头部了
prefix[k] = true;//如果公共后缀子串也是模式串的前缀子串
}
}
int moveByGS(int j, int m, int *suffix, bool *prefix)//传入的j是坏字符对应的模式串中的字符下标
{ 

int k = m - 1 - j;//好后缀长度
if(suffix[k] != -1)//case1,找到跟好后缀一样的模式子串(多个的话,存的靠后的那个(子串起始下标))
return j - suffix[k] + 1;
for(int r = j + 2; r < m; ++r)//case2
{ 

if(prefix[m-r] == true)//m-r是好后缀的子串的长度,如果这个好后缀的子串是模式串的前缀子串
return r;//在上面没有找到相同的好后缀下,移动r位,对齐前缀到好后缀
}
return m;//case3,都没有匹配的,移动m位(模式串长度)
}
int str_bm(char *a, int n, char *b, int m)//a表示主串,长n; b表示模式串,长m
{ 

int *badchar = new int [SIZE];//记录模式串中每个字符最后出现的位置
generateBadChar(b,m,badchar);     //构建坏字符哈希表
int *suffix = new int [m];
bool *prefix = new bool [m];
generateGS(b, m, suffix, prefix);   //预处理模式串,填充suffix,prefix
int i = 0, j, moveLen1, moveLen2;//j表示主串与模式串匹配的第一个字符
while(i < n-m+1)
{ 

for(j = m -1; j >= 0; --j)  //模式串从后往前匹配
{ 

if(a[i+j] != b[j])
break;  //坏字符对应模式串中的下标是j
}
if(j < 0)   //匹配成功
{ 

delete [] badchar;
delete [] suffix;
delete [] prefix;
return i;   //返回主串与模式串第一个匹配的字符的位置
}
//这里等同于将模式串往后滑动 j-badchar[int(a[i+j])] 位
moveLen1 = j - badchar[int(a[i+j])];//按照坏字符规则移动距离
moveLen2 = 0;
if(j < m-1)//如果有好后缀的话
{ 

moveLen2 = moveByGS(j,m,suffix,prefix);//按照好后缀规则移动距离
}
i = i + max(moveLen1,moveLen2);//取大的移动
}
delete [] badchar;
delete [] suffix;
delete [] prefix;
return -1;
}
int main()
{ 

string a = "abcacabcbcbacabc", b = "cbacabc";
cout << a << "中第一次出现" << b << "的位置(从0开始)是:" << str_bm(&a[0],a.size(),&b[0],b.size());
return 0;
}

在这里插入图片描述

2.4 调试

为方便调试,将字符集SIZE改为3,ascii = int(b[i]-'a')

  • 坏字符在模式串中的位置(靠后的那个)
    badchar[0]:a是4
    badchar[1]:b是5
    badchar[2]:c是6
  • 预处理模式串
    在这里插入图片描述
  • 按规则移动
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

3. 总结

  • BM算法的内存消耗
    整个算法用到了额外的3个数组,其中bc数组的大小跟字符集大小有关,suffix数组和prefix数组的大小跟模式串长度m有关。
    如果处理字符集很大的字符串匹配问题,badchar数组对内存的消耗就会比较多。
    因为好后缀坏字符规则是独立的,如果运行的环境对内存要求苛刻,可以只使用好后缀规则,不使用坏字符规则,就可以避免badchar数组过多的内存消耗。不过,单纯使用好后缀规则的BM算法效率就会下降一些了。
  • 时间复杂度
    以上BM算法是个初级版本。这个版本,在极端情况下,预处理计算suffix数组、prefix数组的性能会比较差。
    比如模式串是aaaaaaa这种包含很多重复的字符的模式串,预处理的时间复杂度就是O(m^2)。如何优化这种极端情况下的时间复杂度退化,以后再找空研究。
    实际上,BM算法的时间复杂度分析起来是非常复杂,论文“A new proof of the linearity of the Boyer-Moore string searching algorithm”证明了在最坏情况下,BM算法的比较次数上限是5n。论文“Tight bounds on the complexity of the Boyer-
    Moore string matching algorithm”
    证明了在最坏情况下,BM算法的比较次数上限是3n。

  • BM算法核心思想是,利用模式串本身的特点,在模式串中某个字符与主串不能匹配的时候,将模式串往后多滑动几位,以此来减少不必要的字符比较提高匹配的效率
  • BM算法构建的规则有两类,坏字符规则和好后缀规则。
  • 好后缀规则可以独立于坏字符规则使用。
  • 因为坏字符规则的实现比较耗内存,为了节省内存,我们可以只用好后缀规则来实现BM算法。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/171689.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 手机cpu控制免root_cpu利用率低但是卡

    手机cpu控制免root_cpu利用率低但是卡想不想让CPU利用率展示成一首优美的旋律,就像弹琴一样。我的意思是,你想让系统以及task的CPU利用率是多少它就是多少,一切都是由你的程序自己来调制演奏。这需要一种自指机制。哈哈,完全可以,本文来演示,或者说,你可以把本文的内容看作一个戏弄运维人员的恶作剧。运维人员经常会遇到各种CPU高的问题,然后成群结队地去排查,想让队伍更大些吗?想让事情更诡异吗?我让你查,我让你查。哈哈。事先声明,若用本文描述的手段实施恶意行为,将会受到谴责,这并不是一个真正工程师该有的行为,更有辱手艺人的探索精神。

    2022年10月21日
  • MySQL数据库基础知识_MySQL数据库的特点

    MySQL数据库基础知识_MySQL数据库的特点了解mysqlmysql是一个关系型数据库:以库、表、行、列这种关系模型组织数据Mysql使用时的注意事项每日一条数据库操作语句都应该以分号;结尾,因为mysql支持换行操作mysql数据库对大小写不敏感,大小写皆可,通常关键字使用大写表示mysql数据库中哭的名称应该以英文字符或者一些符号起始,但是不允许以数字起始mysql数据库中哭的名称、表的名称、字段的名称都不能使用mysql关键字,比如create、database;如果非要使用,那就用反引号括起来库的操作查看mysql

  • js 保留两位小数的方法总结「建议收藏」

    js 保留两位小数的方法总结「建议收藏」1、四舍五入的情况varnum=2.446242342;num=num.toFixed(2);//输出结果为2.452、不四舍五入第一种,先把小数边整数:Math.floor(15.7784514000*100)/100//输出结果为15.77第二种,当作字符串,使用正则匹配:Number(15.7784514000.toString().match(/^\d+(?:\.\d{0,2})?/))//输出结果为15.77,不能用于整数如10必须写

  • conda 删除源_conda删除包

    conda 删除源_conda删除包记录自己新建一个py3.5的conda环境,遇到镜像连接超级慢,清华的镜像也不太行的亚子,发现之前安装的anaconda中有一个源速度还可以。一、查看自己conda的链接进入cmdcondainfo调出conda的信息二、添加源condaconfig–addchannelshttps://repo.continuum.io/pkgs/main/condaconf…

  • 零基础学Java(8)数组

    零基础学Java(8)数组数组数组存储相同类型值的序列。声明数组数组是一种数据结构,用来存储同一类型值的集合。通过一个整型下标(index,或称索引)可以访问数组中的每一个值。例如,如果a是一个整型数组,a[i]就是数组

  • 从零到一搭建一个属于自己的博客系统(弎)「建议收藏」

    从零到一搭建一个属于自己的博客系统(弎)「建议收藏」前言:结合上文讲到了博客发布,本篇文章进行对于个人的信息进行一系列操作:从零到一搭建一个属于自己的博客系统(弌):从零到一搭建一个属于自己的博客系统(弌)从零到一搭建一个属于自己的博客系统(弍):从零到一搭建一个属于自己的博客系统(弍)目录:一.界面元素:二.个人中心:1.页面部分以及HTML:2.CSS:3.效果图:4.js:三.Django接口:1.修改密码(update):2.忘记密码(see):3.日志查看(seemsg):4.日志写入(usermsg):四.补充:五.换肤:一.界面元素:

    2022年10月11日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号