python正则表达式入门

article/2025/11/8 10:33:59

🙊今天我们来学习python的正则表达式的部分,先说下为什么要学习这一部分呢,当然是因为正则表达式处理文本类型的数据实在是太方便了。为以后进入nlp领域打打基础!

先给大家推荐一个网站: 用于正则表达式验证.
大致就长这个样子。
在这里插入图片描述

这里写目录标题

    • 1.基础知识
    • 2.贪婪模式和非贪婪模式
    • 3.反斜杠的用途
    • 4.中括号的用法
    • 5.匹配启始和结束位置
    • 6.括号的用法---组选择
    • 7.正则表达式切割字符
    • 总结

1.基础知识

  • 普通字符:普通字符的含义就是字节匹配他们。
  • 特殊字符:它们出现在正则表达式中,不是直接匹配他们,而是表达一些特殊的含义。

.表示匹配除了换行符之外的任何单个字符

例如匹配‘’.公司‘’(匹配三个字符)

#这里展示一下python怎么使用正则表达式
import re #正则表达式的库
content='''
苹果是红色
香蕉是黄色
叶子是绿色
天空是蓝色
'''
#将表达式转化为pattern对象,就可以调用后面的find之类的方法
p=re.compile(r'.色')
for i in p.findall(content):print(i)

结果如下:
在这里插入图片描述

*表示匹配前面的子表达式任意次,包括0次

例如:匹配,.*表示匹配,以及后面的所有字符
在这里插入图片描述

当然前面可以跟普通字符 “好” 匹配 “好好好…”

+表示匹配前面的子表达式一次或者多次,不包括0次

区别就是不包括0次。
+号的(不能0次)
在这里插入图片描述
*号的(可以0次)
在这里插入图片描述

{ }匹配前面的字符指定的次数

例如:表达式"油{2,4}"表示匹配油字最少2次最多4次
在这里插入图片描述

2.贪婪模式和非贪婪模式

不知道大家看懂了下面的这张图吗?
我们只想一个一个匹配

<head><title>

标签,但是它却帮我吗全部都匹配上了,这是因为它只看见了第一个 “< ”和左后一个“>”中间部分全部看成了任意字符,这就是贪婪模式,它会最大限度地匹配字符。
在这里插入图片描述
要想变成非贪婪模式,需要在‘+’,”*“后面加一个‘?’ 这样子就是匹配4个字符。
在这里插入图片描述

3.反斜杠的用途

反斜杠 \ 在正则表达式中多种用途,比如转义

例如:我们需要寻找.之前的所有元素 需要使用 . ∗ / . .*/. ./.斜杠是为了告诉程序后面一个字符代表普通字符.的含义
在这里插入图片描述

反斜杠可以和一些字符组合表示一些特殊字符
在这里插入图片描述

4.中括号的用法

中括号可以用来表示条件或[0123] 或者[0-3]代表这个字符可以是0,1,2,3
也可以存放字符[黄红绿蓝]、[a-z]这一类

例如:匹配包含‘’是[黄红绿蓝]色‘’的字符
在这里插入图片描述

需要说明一些元字符在[]中就是失去了自己的意义,变成普通字符了
例如. + *不需要转义。‘

例如查找“.是”的字符
在这里插入图片描述

如果在[]中使用^字符,则表示非的概念

例如:匹配非数字字符
在这里插入图片描述

5.匹配启始和结束位置

^表示匹配文本启始的位置但在不同模式下效果不一样
正则表表达式主要有2种模式:单行模式和多行模式
单行模式:是指把整个文本看作是一组数据,只匹配所有数据的开头
多行模式:是指把每一行看成是一组数据,匹配每一行的开始

例如:我们使用单行模式匹配,只匹配了第一行的001
在这里插入图片描述
例如:我们使用多行匹配,匹配到了001、002、003
在这里插入图片描述
问题来了,在python中如何制定是是单行还是多行模式呢?
在compile里面增加参数re.M或者re.MULTILINE都行。
在这里插入图片描述
结果如下:
在这里插入图片描述

$表示文件的结尾,用法和^类似,也分多行模式和单行模式

单行模式

在这里插入图片描述

多行模式
在这里插入图片描述

6.括号的用法—组选择

组选择:是指从正则表达式匹配的结果中再选择出我们所需要的字符,例如:我们需要匹配逗号前面的字符,我们可能会写“.*,”可是这样匹配出来的字符中含有逗号,可我们不想要这个逗号,这时就需要用组选择。
在这里插入图片描述
看一看python的写法
在这里插入图片描述
如果遇见多个分组,那么每一行的数据就会变成元组,你可以通过元组下标来取出对应的字符。
在这里插入图片描述
来一个小练习:给你一组数据,请从中选出人名和电话号码

苹果,电话123131
香蕉,电话234241
叶子,电话245363
天空,电话124234

python实现如下:
在这里插入图片描述

7.正则表达式切割字符

字符串对象的split()方法只适用于非常简单的字符串分割情形,当你需要更加灵活的切割字符的时候,就需要用正则表达式了
例如:

#我们这里有一组数据
names=‘关羽;张飞,马超,老夫子,李元芳 狄仁杰’

这应该如何切割呢?
我们可以利用re.split用正则表达式的符号来制定分隔符。
在这里插入图片描述

总结

这一这章节主要是进行正则表达式的基础学习,当作一个小小的入门教程还是很不错的,日后碰见复杂的用法会继续添加。


http://chatgpt.dhexx.cn/article/bL47QtsY.shtml

相关文章

python使用正则表达式

一、使用正则表达式步骤 1、寻找规律&#xff1b; 2、使用正则符号表示规律&#xff1b; 3、提取信息&#xff0c;如果每一个字符都能匹配&#xff0c;则匹配成功&#xff1b;一旦有匹配不成功的字符则匹配失败。 二、正则表达式中常见的基本符号 1&#xff0e;点号“.”一…

Python 正则表达式

1.正则表达式的定义: 正则表达式是对字符串进行解析&#xff08;获取一大串字符串信息中&#xff0c;你想要的部分&#xff09;。 正则表达式是一种文本模式&#xff0c;模式描述在搜索文本时要匹配的一个或多个字符串。 正则表达式&#xff0c;又成正规表示式&#xff0c;正规…

python正则表达式详解

正则表达式是一个很强大的字符串处理工具&#xff0c;几乎任何关于字符串的操作都可以使用正则表达式来完成&#xff0c;作为一个爬虫工作者&#xff0c;每天和字符串打交道&#xff0c;正则表达式更是不可或缺的技能&#xff0c;正则表达式的在不同的语言中使用方式可能不一样…

详解Python正则表达式(含丰富案例)

前言&#xff1a;正则表达式在网络爬虫、数据分析中有着广泛使用&#xff0c;掌握正则表达式能够达到事半功倍的效果。本文详细介绍正则表达式中各种规则及其符号含义&#xff0c;并结合Python中的Re库进行演示&#xff0c;由浅入深&#xff0c;即学即练即用&#xff0c;内容丰…

Python超详细的正则表达式

目录 介绍 常用的正则表达式匹配规则表格 1.match() .group() 常用知识点 1.通用匹配 2.贪婪与非贪婪 3.修饰符 4.转义匹配 2.search() 3.findall() 4.sub() 总结 Hello大家好我是&#xff0c;PYmili&#xff01;今天给大家带来正则表达式的使用教程即匹配规则表格…

Python正则表达式(一看就懂)

目录 哈喽O(∩_∩)O&#x1f604; 什么是正则表达式(⊙_⊙) 简单说&#xff0c;正则表达式是… 正则表达式怎么用❓ sreach的用法&#x1f34a; 匹配连续的多个数值&#x1f349; 字符""重复前面一个匹配字符一次或者多次&#x1f349; 字符"*"重复前…

Python正则表达式详解 (超详细,看完必会!)

正则表达式详解 正则表达式 英文名称叫 Regular Expression简称RegEx&#xff0c;是用来匹配字符的一种工具&#xff0c;它常被用在网页爬虫&#xff0c;文稿整理&#xff0c;数据筛选等方面&#xff0c;最常用的就是用在网页爬虫&#xff0c;数据抓取。 一、正则表达式的各种…

Python 正则表达式详解(建议收藏!)

目录 match 匹配字符串 单字符匹配 . 匹配任意一个字符 \d 匹配数字 \D 匹配非数字 \s 匹配特殊字符&#xff0c;如空白&#xff0c;空格&#xff0c;tab等 \S 匹配非空白 \w 匹配单词、字符&#xff0c;如大小写字母&#xff0c;数字&#xff0c;_ 下划线 \W 匹配非…

Android工程中方法数超过65536解决方法(Kotlin)

Android Studio报错&#xff1a; The number of method references in a .dex file cannot exceed 64K. Caused by: com.android.tools.r8.utils.AbortException: Error: Cannot fit requested classes in a single dex file (# methods: 68815 > 65536) 解决方案 build.…

postman/EOLINKER测试报错 RangeError:Port should be 0 and 65536. Received 80892.

postman/EOLINKER测试报错 RangeError&#xff1a;Port should be > 0 and < 65536. Received 80892. RangeError&#xff1a;范围错误 RangeError是当一个只超出有效范围时发生的错误。主要的有几种情况&#xff0c;第一是数组长度为负数&#xff0c;第二是Number对象…

Android Studio Cannot fit requested classes in a single dex file (# methods: 72633 > 65536)解决办法

今天在Android Studio中构建Android工程时&#xff0c;出现了这样报错&#xff1a;“Cannot fit requested classes in a single dex file (# methods: 72633 &#xff1e; 65536)” 在网上找了一圈儿&#xff0c;总结个简单快速的解决方法 问题&#xff1a; Cannot fit req…

计算机端口号65536,65536端口能不能用

楼主asdd3000(asdd) 16位计算机端口65536个,32位计算机端口是65536/2个还是65536*2个?为什么? 问题点数:10、回复次数:20 Top 1 楼EvilOctal(冰血封情) 回复于 2004-04-08 20:41:04 得分 0 这个问题我真的不太清楚. 但是 好象和位数没关系吧? 服务端口是国际组织规定的,不是…

为什么89C51单片机里面有TH0=(65536-50000)/256;TL0=(65536-50000)%256;

由于89C51的晶振频率为12MHZ&#xff0c;机器周期是1us,则每1us产生一次计数&#xff0c;例如需要进行50ms的计时&#xff0c;对机器周期进行50000计数就可以得到&#xff0c;T0可以对机器周期进行65536次计数&#xff0c;为了不让T0溢出&#xff0c;我们需要对定时器/计数器赋…

NXP MCUXPresso - cc1plus.exe: out of memory allocating 65536 bytes

文章目录 NXP MCUXPresso - cc1plus.exe: out of memory allocating 65536 bytes概述实验结论补充END NXP MCUXPresso - cc1plus.exe: out of memory allocating 65536 bytes 概述 在尝试迁移 openpnp - Smoothieware project 从gcc命令行 MRI调试方式 到NXP MCUXpresso工程…

65536 65535 65534

65536 65535 65534 通常在导入模型的时候会遇到65534的限制&#xff0c;比如Unity里的“Meshes may not have more than 65534 vertices or triangles at the moment”提示。开起来像是2的16次方&#xff0c;但为什么不是65536&#xff1f;65536和65535会有什么问题&#xff1…

Eclipse中65536的解决办法

最近在做项目的时候&#xff0c;发现引入的第三方工程太多&#xff0c;无法打包成app文件了。如下 遇到这种问题怎么办呢&#xff1f;&#xff1f;&#xff1f;我们先看问题描述&#xff1a;方法数不在0-65536内&#xff0c;dalvik。。错误&#xff0c;不懂&#xff0c;还是先百…

Android中65536问题剖析

问题出现的原因是因为导入融云通信的包后&#xff0c;突然提示&#xff1a; Error:The number of method references in a .dex file cannot exceed 64K. Learn how to resolve this issue at https://developer.android.com/tools/building/multidex.html。 解决办法&#xf…

数据类型

强类型语言 强类型语言是一种强制类型定义的语言&#xff0c;一旦某一个变量被定义类型&#xff0c;如果不经过强制转换&#xff0c;则它永远就是该数据类型了&#xff0c;强类型语言包括Java、.net 、Python、C等语言&#xff0c;要求变量的使用要严格符合规定&#xff0c;所有…

C语言自己写代码实现的strcmp函数

我们在面试的时候&#xff0c;经常会被笔试实现C语言系统函数&#xff0c;比如strcmp函数&#xff0c;主要考察大家的C语言功底&#xff01; #include <assert.h> #include <stdio.h>int MyStrCmp(const char* str1, const char* str2) {assert((str1 ! NULL) &a…

用指针实现strcmp函数功能

strcmp函数的原理&#xff1a; 将两个字符串&#x1f50d;&#xff08;s1&#xff0c;s2&#xff09;的元素ascii码依次比较&#xff0c;直到遇到最短字符串的‘\0’&#xff0c;返回最后一个元素ascii码比较结果。 指针实现方式&#xff1a; 通过定义两个char*指针&#x1f5…