字符串匹配算法(BM)

article/2025/9/21 12:55:42

文章目录

    • 1. BM(Boyer-Moore)算法
      • 1.1 坏字符规则
      • 1.2 好后缀规则
      • 1.3 两种规则如何选择
    • 2. BM算法代码实现
      • 2.1 坏字符
      • 2.2 好后缀
      • 2.3 完整代码
      • 2.4 调试
    • 3. 总结

1. BM(Boyer-Moore)算法

  • 思想:有模式串中不存在的字符,那么肯定不匹配,往后多移动几位,提高效率
    在这里插入图片描述
  • BM原理:坏字符规则,好后缀规则

1.1 坏字符规则

在这里插入图片描述

  • 利用坏字符规则,BM算法在最好情况下的时间复杂度非常低,是O(n/m)。比如,主串是aaabaaabaaabaaab,模式串是aaaa。每次比对,模式串都可以直接后移四位,所以,匹配具有类似特点的模式串和主串的时候,BM算法非常高效。
  • 单纯使用坏字符规则还是不够的。因为根据 si-xi计算出来的移动位数有可能是负数,比如主串是aaaaaaaaaaaaaaaa,模式串是baaa。不但不会向后滑动模式串,还有可能倒退。所以,BM算法还需要用到“好后缀规则”。

1.2 好后缀规则

在这里插入图片描述
从好后缀的后缀子串中,找一个最长的且和模式串的前缀子串匹配的 {v},滑动至 {v} 对齐
在这里插入图片描述

1.3 两种规则如何选择

  • 分别计算好后缀和坏字符规则往后滑动的位数,取大的,作为滑动位数(还可以避免负数)

2. BM算法代码实现

2.1 坏字符

  • 找到坏字符在模式串中的位置(有重复的,则是靠后的那个)
    采用哈希,而不是遍历。
    在这里插入图片描述
#define SIZE 256    //字符集字符数
void generateBadChar(char *b, int m, int *badchar)//(模式串字符b,模式串长度m,模式串的哈希表)
{int i, ascii;for(i = 0; i < SIZE; ++i){badchar[i] = -1;//哈希表初始化为-1}for(i = 0; i < m; ++i){ascii = int(b[i]);  //计算字符的ASCII值badchar[ascii] = i;//重复字符被覆盖,记录的是最后出现的该字符的位置}
}

在这里插入图片描述

int str_bm(char *a, int n, char *b, int m)
//只考虑坏字符方法的程序框架
{int *badchar = new int [SIZE];//记录模式串中每个字符最后出现的位置generateBadChar(b,m,hash);     //构建坏字符哈希表int i = 0, j;while(i < n-m+1){for(j = m -1; j >= 0; --j)  //模式串从后往前匹配{if(a[i+j] != b[j])break;  //坏字符对应模式串中的下标是j}if(j < 0)   //匹配成功{return i;   //返回主串与模式串第一个匹配的字符的位置}//这里等同于将模式串往后滑动 j-badchar[int(a[i+j])] 位i = i + (j - badchar[int(a[i+j])]);}return -1;
}

2.2 好后缀

  • 在模式串中,查找跟好后缀匹配的另一个子串
  • 在好后缀的后缀子串中,查找最长的、能跟模式串前缀子串匹配的后缀子串

不考虑效率的话,上面两个操作都可以暴力查找;
解决办法: 预先对模式串进行处理。
在这里插入图片描述
在这里插入图片描述
实现过程:
在这里插入图片描述
预处理模式串,填充suffix,prefix

void generateGS(char *b, int m, int *suffix, bool *prefix)
//预处理模式串,填充suffix,prefix
{int i, j, k;for(i = 0; i < m; ++i)//两个数组初始化{suffix[i] = -1;prefix[i] = false;}for(i = 0; i < m-1; ++i)//b[0,i]{j = i;k = 0;//公共后缀子串长度(模式串尾部取k个出来,分别比较)while(j >= 0 && b[j] == b[m-1-k])//与b[0,m-1]求公共后缀子串{--j;++k;suffix[k] = j+1;//相同后缀子串长度为k时,该子串在b[0,i]中的起始下标// (如果有多个相同长度的子串,被赋值覆盖,存较大的)}if(j == -1)//查找到模式串的头部了prefix[k] = true;//如果公共后缀子串也是模式串的前缀子串}
}

计算滑动位数

  • case1:
    在这里插入图片描述
  • case2:
    在这里插入图片描述
  • case3:(以上都不成立,移动整个模式串(长度m))
    在这里插入图片描述

2.3 完整代码

/*** @description: 字符匹配BM算法* @author: michael ming* @date: 2019/6/18 22:19* @modified by: */
#include <algorithm>
#include <string>
#include <iostream>using namespace std;
#define SIZE 256    //字符集字符数
void generateBadChar(char *b, int m, int *badchar)//(模式串字符b,模式串长度m,模式串的哈希表)
{int i, ascii;for(i = 0; i < SIZE; ++i){badchar[i] = -1;//哈希表初始化为-1}for(i = 0; i < m; ++i){ascii = int(b[i]);  //计算字符的ASCII值badchar[ascii] = i;//重复字符被覆盖,记录的是最后出现的该字符的位置}
}
void generateGS(char *b, int m, int *suffix, bool *prefix)//预处理模式串,填充suffix,prefix
{int i, j, k;for(i = 0; i < m; ++i)//两个数组初始化{suffix[i] = -1;prefix[i] = false;}for(i = 0; i < m-1; ++i)//b[0,i]{j = i;k = 0;//公共后缀子串长度(模式串尾部取k个出来,分别比较)while(j >= 0 && b[j] == b[m-1-k])//与b[0,m-1]求公共后缀子串{--j;++k;suffix[k] = j+1;//相同后缀子串长度为k时,该子串在b[0,i]中的起始下标// (如果有多个相同长度的子串,被赋值覆盖,存较大的)}if(j == -1)//查找到模式串的头部了prefix[k] = true;//如果公共后缀子串也是模式串的前缀子串}
}
int moveByGS(int j, int m, int *suffix, bool *prefix)//传入的j是坏字符对应的模式串中的字符下标
{int k = m - 1 - j;//好后缀长度if(suffix[k] != -1)//case1,找到跟好后缀一样的模式子串(多个的话,存的靠后的那个(子串起始下标))return j - suffix[k] + 1;for(int r = j + 2; r < m; ++r)//case2{if(prefix[m-r] == true)//m-r是好后缀的子串的长度,如果这个好后缀的子串是模式串的前缀子串return r;//在上面没有找到相同的好后缀下,移动r位,对齐前缀到好后缀}return m;//case3,都没有匹配的,移动m位(模式串长度)
}
int str_bm(char *a, int n, char *b, int m)//a表示主串,长n; b表示模式串,长m
{int *badchar = new int [SIZE];//记录模式串中每个字符最后出现的位置generateBadChar(b,m,badchar);     //构建坏字符哈希表int *suffix = new int [m];bool *prefix = new bool [m];generateGS(b, m, suffix, prefix);   //预处理模式串,填充suffix,prefixint i = 0, j, moveLen1, moveLen2;//j表示主串与模式串匹配的第一个字符while(i < n-m+1){for(j = m -1; j >= 0; --j)  //模式串从后往前匹配{if(a[i+j] != b[j])break;  //坏字符对应模式串中的下标是j}if(j < 0)   //匹配成功{delete [] badchar;delete [] suffix;delete [] prefix;return i;   //返回主串与模式串第一个匹配的字符的位置}//这里等同于将模式串往后滑动 j-badchar[int(a[i+j])] 位moveLen1 = j - badchar[int(a[i+j])];//按照坏字符规则移动距离moveLen2 = 0;if(j < m-1)//如果有好后缀的话{moveLen2 = moveByGS(j,m,suffix,prefix);//按照好后缀规则移动距离}i = i + max(moveLen1,moveLen2);//取大的移动}delete [] badchar;delete [] suffix;delete [] prefix;return -1;
}int main()
{string a = "abcacabcbcbacabc", b = "cbacabc";cout << a << "中第一次出现" << b << "的位置(从0开始)是:" << str_bm(&a[0],a.size(),&b[0],b.size());return 0;
}

在这里插入图片描述

2.4 调试

为方便调试,将字符集SIZE改为3,ascii = int(b[i]-'a')

  • 坏字符在模式串中的位置(靠后的那个)
    badchar[0]:a是4
    badchar[1]:b是5
    badchar[2]:c是6
  • 预处理模式串
    在这里插入图片描述
  • 按规则移动
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

3. 总结

  • BM算法的内存消耗
    整个算法用到了额外的3个数组,其中bc数组的大小跟字符集大小有关,suffix数组和prefix数组的大小跟模式串长度m有关。
    如果处理字符集很大的字符串匹配问题,badchar数组对内存的消耗就会比较多。
    因为好后缀坏字符规则是独立的,如果运行的环境对内存要求苛刻,可以只使用好后缀规则,不使用坏字符规则,就可以避免badchar数组过多的内存消耗。不过,单纯使用好后缀规则的BM算法效率就会下降一些了。
  • 时间复杂度
    以上BM算法是个初级版本。这个版本,在极端情况下,预处理计算suffix数组、prefix数组的性能会比较差。
    比如模式串是aaaaaaa这种包含很多重复的字符的模式串,预处理的时间复杂度就是O(m^2)。如何优化这种极端情况下的时间复杂度退化,以后再找空研究。
    实际上,BM算法的时间复杂度分析起来是非常复杂,论文"A new proof of the linearity of the Boyer-Moore string searching algorithm"证明了在最坏情况下,BM算法的比较次数上限是5n。论文"Tight bounds on the complexity of the Boyer-
    Moore string matching algorithm"证明了在最坏情况下,BM算法的比较次数上限是3n。

  • BM算法核心思想是,利用模式串本身的特点,在模式串中某个字符与主串不能匹配的时候,将模式串往后多滑动几位,以此来减少不必要的字符比较提高匹配的效率
  • BM算法构建的规则有两类,坏字符规则和好后缀规则。
  • 好后缀规则可以独立于坏字符规则使用。
  • 因为坏字符规则的实现比较耗内存,为了节省内存,我们可以只用好后缀规则来实现BM算法。

http://chatgpt.dhexx.cn/article/HLBORilh.shtml

相关文章

六种字符串匹配算法详解(含代码演示)

1. Brute-Force算法 2. Rabin-Karp Hash算法 3. Kmp算法 4. Kmp的优化算法 5. Sunday算法 6. Shift-And算法 ps&#xff1a;字符串匹配其实是单模匹配问题 1.Brute-Force 朴素匹配算法&#xff08;暴力匹配&#xff09; 时间复杂度&#xff1a;O(n*m) //返回 文本串s中第一…

字符串匹配算法(BF、KMP)

BF算法 描述&#xff1a; BF&#xff0c;Brute Force&#xff0c;暴力匹配的意思&#xff0c;是最简单直观的字符串匹配算法。假设有主串s1和子串s2&#xff0c;根据BF算法判断s1是否包含s2的步骤如下&#xff1a; 初始下标指针 i, j 分别指向s1, s2的首位置&#xff0c;若s1…

这可能是全网最好的字符串匹配算法讲解

点击上方 好好学java &#xff0c;选择 星标 公众号重磅资讯&#xff0c;干货&#xff0c;第一时间送达 今日推荐&#xff1a;14 个 github 项目&#xff01;个人原创100W 访问量博客&#xff1a;点击前往&#xff0c;查看更多为保证代码严谨性&#xff0c;文中所有代码均在 le…

Spring boot 项目(五)——AOP切面

一、AOP简介 1、在软件业&#xff0c;AOP为Aspect Oriented Programming的缩写&#xff0c;意为&#xff1a;面向切面编程&#xff0c;通过预编译方式和运行期间动态代理实现程序功能的统一维护的一种技术。 2、AOP是OOP的延续&#xff0c;是软件开发中的一个热点&#xff0c;也…

Spring AOP 切面(Aspect)应用详解

1. AOP 切面应用 下面是一个AOP切面的一个简单的应用实例 引入AOP依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId></dependency>创建切面类对象 Aspect Component pub…

springboot实现AOP切面编程

概述 AOP(Aspect Oriented Programming) 即面向切面编程。面向切面是面向对象中的一种方式而已。在代码执行过程中&#xff0c;动态嵌入其他代码&#xff0c;叫做面向切面编程&#xff08;将交叉业务逻辑封装成成切面&#xff0c;利用AOP功能将切面织入到主业务逻辑———与主…

spring AOP切面及日志记录实现

目录 1.什么是AOP切面 2.理解AOP 3.AOP实例 1.自定义注解 2.创建一个切面类 3.将自定义注解标注在测试接口上 1.什么是AOP切面 AOP&#xff08;Aspect Oriented Programming&#xff09;&#xff0c;面向切面思想&#xff0c;是Spring的三大核心思想之一。 在项目中经常…

Aop切面自定义注解的使用

一&#xff1a;功能简介 本文主要记录如何使用aop切面的方式来实现日志记录功能。 主要记录的信息有: 操作人&#xff0c;方法名&#xff0c;参数&#xff0c;运行时间&#xff0c;操作类型(增删改查)&#xff0c;详细描述&#xff0c;返回值。 二&#xff1a;项目结构图 三…

AOP切面注解

一.前言 在以前的项目中&#xff0c;很少去关注spring aop的具体实现与理论&#xff0c;只是简单了解了一下什么是aop具体怎么用&#xff0c;看到了一篇博文写得还不错&#xff0c;就转载来学习一下&#xff0c;博文地址&#xff1a;http://www.cnblogs.com/xrq730/p/4919025.h…

AOP切面执行顺序

文章目录 一. 概述二. 讲述1. 单切面中各通知方法的执行顺序2. 多切面中各通知方法的执行顺序3. 多切面的通知方法中抛出异常 参考资料 一. 概述 本文主要讲述以下几点 单AOP切面时&#xff0c;各通知方法的执行顺序。多AOP切面时&#xff0c;多切面的执行顺序和各通知方法的执…

spring aop切面执行顺序

spring aop切面执行顺序 切面执行顺序 现有切面1、切面2对同一个切点按先后顺序执行&#xff08;切面1先于切面2执行&#xff09; 切面1&#xff1a;Before、After、AfterReturnning、AfterThrowing、Around 执行前、Around 正常执行、Around 异常执行、Around 执行后切面2&am…

一文带你搞定AOP切面

摘要&#xff1a;AOP在spring中又叫“面向切面编程”&#xff0c;是对传统我们面向对象编程的一个补充&#xff0c;主要操作对象就是“ 切面”&#xff0c; 可以简单的理解它是贯穿于方法之中&#xff0c;在方法执行前、执行时、执行后、返回值后、异常后要执行的操作。 本文分…

SpringBoot AOP切面实现

文章目录 一、AOP简介二、AOP体系与概念三、AOP实例1、创建SpringBoot工程2、添加依赖3、AOP相关注解3.1、Aspect3.2、Pointcut3.2.1、execution()3.2.2、annotation() 3.3、Around3.4、Before3.5、After3.6、AfterReturning3.7、AfterThrowing 一、AOP简介 AOP&#xff08;As…

AOP切面编程的理解

一、什么是Spring的AOP&#xff1f; AOP在spring中又叫“面向切面编程”&#xff0c;它可以说是对传统我们面向对象编程的一个补充&#xff0c;从字面上顾名思义就可以知道&#xff0c;它的主要操作对象就是“切面”&#xff0c;所以我们就可以简单的理解它是贯穿于方法之中&a…

AOP切面使用

一、主要设计注解&#xff1a; Aspect After before Pointcut Around pom文件引入 <!--用于aop切面编程--> <dependency> <groupId>org.aspectj</groupId> <artifactId>aspectjweaver</artifactId> </dependency> 二、AOP核心…

AOP面向切面

1.什么是Spring的AOP? AOP又叫"面向切面编程",是对传统的面向对象编程的一个补充,主要的操作对象就是"切面 ",可以简单的理解它是贯穿于方法之中,在方法执行前、执行时、执行后、返回值后、异常后要执行的操作。 相当于将我们原本一条线执行的程序在中间切…

【JavaEE】Spring AOP (面向切面)详解

目录&#xff1a; 1. 什么是 Spring AOP&#xff1f;1.1 AOP1.2 使用 AOP 的场景 2. AOP 组成2.1 切面&#xff08;Aspect&#xff09;2.2 连接点&#xff08;Join Point&#xff09;2.3 切点&#xff08;Pointcut&#xff09;2.4 通知&#xff08;Advice&#xff09; 3. AOP 概…

斜杠,反斜杠说明

/ 斜杠 \反斜杠 在window中都用斜杠 反斜杠是用来转译字符串的 eg: \"a\" 输出"a"

斜杠、反斜杠、双斜杠、反双斜杠的区别和使用方法及范围

背景 这边我就找了两篇大神写的文章&#xff0c;讲得非常清晰明了。文章主要讲了一些历史缘故和我们面对各种斜杠时的疑惑。 斜杠’/’ 和反斜杠’’ 深入探讨正斜杠和反斜杠 概念 1. 斜杠"/"是URL地址中用到的分隔符&#xff0c;并且在linux系统中的文件路径也是…

glob.glob()之返回路径的正反斜杆问题

Windows环境下用一个反斜杠就行 绝对路径&#xff1a;D:\PyCharm_code\pytorch_study\xxx 相对路径&#xff1a;.\cifar10_train\**\*.png 以下是踩过的坑&#xff1a;记录下