Python中使用中文正则表达式匹配指定的中文字符串

article/2025/9/11 23:11:27

业务场景

从中文字句中匹配出指定的中文子字符串 .这样的情况我在工作中遇到非常多, 特梳理总结如下.

难点:

处理GBK和utf8之类的字符编码, 同时正则匹配Pattern中包含汉字,要汉字正常发挥作用,必须非常谨慎.推荐最好统一为utf8编码,如果不是这种最优情况,也有酌情处理.

往往一个具有普适性的正则表达式会简化程序和代码的处理,使过程简洁和事半功倍,这往往是高手和菜鸟最显著的差别

示例一:

从QQ纯真数据库中解析出省市县等特定词语,这里的正则表达式基本能够满足业务场景,懒惰匹配?非常必要,因为处理不好,会得不到我们想要的效果。个中妙处,还请各位看官自己琢磨,我这里只点到为止!

代码如下:

#!/usr/bin/env python
#encoding: utf-8
#description: 从字符串中提取省市县等名称,用于从纯真库中解析解析地理数据import re
import sys
reload(sys)
sys.setdefaultencoding('utf8')#匹配规则必须含有u,可以没有r
#这里第一个分组的问号是懒惰匹配,必须这么做
PATTERN = \
ur'([\u4e00-\u9fa5]{2,5}?(?:省|自治区|市))([\u4e00-\u9fa5]{2,7}?(?:市|区|县|州)){0,1}([\u4e00-\u9fa5]{2,7}?(?:市|区|县)){0,1}'
data_list = ['北京市', '陕西省西安市雁塔区', '西班牙', '北京市海淀区', '黑龙江省佳木斯市汤原县', '内蒙古自治区赤峰市',
'贵州省黔南州贵定县', '新疆维吾尔自治区伊犁州奎屯市']for data in data_list:data_utf8 = data.decode('utf8')print data_utf8country = dataprovince = ''city = ''district = ''#pattern = re.compile(PATTERN3)pattern = re.compile(PATTERN)m = pattern.search(data_utf8)if not m:print country + '|||'continue#print m.group()country = '中国'if m.lastindex >= 1:province = m.group(1)if m.lastindex >= 2:city = m.group(2)if m.lastindex >= 3:district = m.group(3)out = '%s|%s|%s|%s' %(country, province, city, district)print out

运行截图


示例二

从ip138中获取指定ip的地理位置等信息。

ip138是我们日常使用较多的ip查询网站,我为了获取每个ip对应的isp信息,需要查询这个页面


我在网上搜索了很久,没有找到ip138返回json之类的接口,只能以这种方式查询,那么我们不可避免地需要解析出上图中红框标注的isp信息。如果使用DOM解析指定div标签之类的常规思路恐怕不太凑效,更简捷的方式是使用中文正则匹配,直接从返回的html中得到“本站主数据:”那部分的信息。

下面是我摸索的代码

#!/usr/bin/env python
#encoding: utf-8
#date: 2016-03-31
#note: 测试中遇到的问题,请求指定的链接会有超时现象,可以多请求几次import requests, re
import sys
reload(sys)
sys.setdefaultencoding('utf8')IP138_API = 'http://www.ip138.com/ips138.asp?ip='
PATTERN = ur'<li>本站主数据:(.*?)</li>'def query_api(url):data = ''r = requests.get(url)if r.status_code == 200:data = r.contentreturn datadef parse_ip138(html):#只能是unicode编码,不能在后面再转换为utf-8,否则无法正则匹配上.html = unicode(html, 'gb2312')#html = unicode(html, 'gb2312').encode('utf-8')#print htmlpattern = re.compile(PATTERN)m = pattern.search(html)if m:print m.group(1)else:print 'regex match failed'if __name__ == '__main__':url = IP138_API + '14.192.60.0'resp = query_api(url)if not resp:print 'no content'parse_ip138(resp)

下面是截图



http://chatgpt.dhexx.cn/article/smLBjZM8.shtml

相关文章

验证中文名字---正则表达式

验证中文名字—正则表达式 效果 正确演示 错误演示 运用知识点 正则表达式 ps http://www.bejson.com/convert/unicode_chinese/ unicode编码&#xff08;了解&#xff09; 打开浏览器 F12 控制台 输入 escape(“淦”) unescape("%u6DE6") 在这里插入图片描…

在js中用正则匹配中文

在JavaScript中&#xff0c;用正则表达式如何匹配中文字符&#xff08;包括繁体、简体&#xff09;&#xff1f; 答案就是用中文字符集来匹配&#xff0c;中文字符集为[\u4e00-\u9fa5] <!DOCTYPE html> <!-- 文档申明&#xff1a;让浏览器用H5的标准解析当前网页 --…

正则表达式 判断是否是中文

&#xff08;一&#xff09;字母、数字、下划线、汉字正则表达式 1. 只有字母、数字和下划线且不能以下划线开头和结尾的正则表达式&#xff1a;^(?!_)(?!.*?_$)[a-zA-Z0-9_]$ 只有字母和数字的&#xff1a; ^[a-zA-Z0-9_]$ 2. 至少一个汉字、数字、字母、下划线: &qu…

正则中文匹配

这篇文章主要讲如何使用正则匹配中文字符&#xff0c;中文正则表达式的匹配规则不像其他正则规则一样容易记住&#xff0c;下面一起看看这个中文正则表达式是怎么样的。 \w匹配的仅仅是中文&#xff0c;数字&#xff0c;字母&#xff0c;对于国人来讲&#xff0c;仅匹配中文…

js正则中文

hi&#xff0c;大家好   今天跟小伙伴们浅谈以下如何用正则表示中文以及如何去运用。众所周知中文在计算机中是不能进行存储的。那我们是以什么办法让我们和计算机进行更好的沟通呢&#xff1f; 常用的几种中文编码格式 utf-8编码   utf-8又称“万国码”&#xff0c;可以同…

python正则如何匹配中文汉字

正则表达式匹配中文汉字&#xff0c;在实际应用中十分常见。 比如&#xff1a;爬虫网页文本提取、验证用户输入标准等。 以下面文本字符串为例&#xff0c;匹配出astr这个字符串中的所有汉字。 import re astr aaaaa何时when 杖尔看see南雪snow&#xff0c;我me与梅花plum bl…

Guava: Joiner

Joiner 字符串拼接对象 on 基本实例 Joiner.on(" ").join("四川省","成都市","金牛区").toString() 1 on 以空格为分隔符join内是拼接的对象:迭代器对象、数组、可变参数等 result 四川省 成都市 金牛区 1 特殊处理 动态拼接…

Google Guava中Joiner用法

Google Guava中Joiner用法 一&#xff1a;Google Guava的下载地址链接&#xff1a; Google Guava的jar包下载地址&#xff1a;https://pan.baidu.com/s/1B2IjhOlrulOgwceG1TehKQ 密码&#xff1a;2qha 1&#xff1a;java application项目引入下载的jar包。 2&#xff1a;we…

【第一章】google guava 之 Joiner学习

Joiner是将数组按照某分隔符分隔返回字符串 com.google.common.base.Joiner#on(java.lang.String) 用户构造函数设置用什么字符分隔 com.google.common.base.Joiner#appendTo(A, java.lang.Iterable<? extends java.lang.Object>) 用于传入一个集合&#xff0c;然后通…

001 Joiner

一.概述 本类的名称的含义就是连接器,可以帮助我们实现数据(对象)的连接. 二 . 对象的创建   Testpublic void test1() {Joiner joiner Joiner.on(",");} 创建一个Joiner对象,我们可以使用on()方法,含义就是会用这个分隔符进行连接数据. 我们可以发现我们实际上都…

mp4 joiner linux,MP4Joiner怎么用?使用MP4Joiner快速合并多个mp4视频文件的方法介绍

如何使用MP4Joiner快速合并多个mp4视频文件&#xff1f;MP4Joiner是一款专业小巧的MP4视频合并软件&#xff0c;支持将多个MP4视频合并为一个&#xff0c;支持自定义设置视频的前后顺序&#xff0c;速度非常快&#xff0c;也不会损坏视频质量&#xff0c;非常不错。接下来小编就…

1、Guava-连接器Joiner使用和源码分析

Guava-连接器Joiner使用和源码分析 1.Guava-连接器Joiner使用和源码分析1.1 使用版本1.2 代码示例1.2.1 基本使用1.2.2 集合中Null导致空指针异常1.2.3 忽略集合中的null1.2.4 用默认值代替集合中的null1.2.5 添加至Appendable中1.2.6 连接Map中的key和value1.2.7 使用Stream流…

如何在Linux中使用命令行卸载软件

所有的Linux系统中都带有包管理器命令&#xff0c;比如Ubuntu发行版里的dpkg命令&#xff0c;CentOS/RHEL发行版里带的yum和rpm命令&#xff0c;下面我就以自己比较熟悉的CentOS/RHEL系列发行版来讲解&#xff0c;以nginx这个常用的web软件为例。 查看系统上是否安装了nginx …

Linux如何使用命令行卸载安装包

严格地说&#xff0c;Linux是内核。Linux发行版由Linux内核、安装脚本、shell、编译器、桌面和其他组件组成。因此&#xff0c;卸载包或软件的Linux命令取决于Linux发行版的名称和类型。本文说明如何使用命令行在各种Linux发行版上卸载软件包或软件。 首先&#xff0c;您需要找…

Linux中使用rpm命令卸载软件

1、先使用rpm -qa | grep 软件包名称 例如卸载mysql&#xff1a; rpm -qa | grep mysql 2、使用rpm -e --nodeps 文件包名称 rpm -e --nodeps mysql-5.0.77-4.el5_6.6 rpm -e --nodeps libdbi-dbd-mysql-0.8.1a-1.2.2 rpm -e --nodeps mysql-5.0.77-4.el5_6.6 rpm -e --node…

Linux下如何彻底删除(卸载)MySQL?

首先连接操作系统&#xff0c;切换到root用户。 如果是使用yum安装的mysql&#xff0c;使用如下命令进行卸载&#xff08;不能确定使用何种方式安装的mysql情况下&#xff0c;按后续步骤一一进行处理即可&#xff09;&#xff1a; yum remove mysql mysql-server mysql-libs c…

Linux rpm命令详解,Linux安装、卸载、更新软件

「作者主页」&#xff1a;士别三日wyx 「作者简介」&#xff1a;CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 rpm命令详解 一、常用操作1、安装软件1.1、默认安装路径 2、更新软件3、卸载软件4、查询已经安装的软件 二、实用技巧三、rpm包命名规则 作用…

Linux 卸载程序

windows中安装了软件&#xff0c;可以通过图形化界面很方便的卸载&#xff0c;那么linux命令行的方式如何卸载程序呢&#xff1f; 首先看看安装了哪些程序 rpm -q -a #查询所有已安装的软件-q:query 查询 -a:all 所有 查询出了所有已安装的程序 所以需要过滤多自己需要卸载…

Linux软件的卸载

1.安装说明 configure作用:是源码安装软件时配置环境用的 他根据你的配置选项和你的系统情况生成makefile文件 为make 做准备。 最常用的参数: ./configure –prefix 作用: 不指定prefix&#xff0c;则可执行文件默认放在/usr/local/bin&#xff0c;库文件默认放在/usr/local…

Linux 卸载软件

一、卸载软件 1.输入命令 dpkg --list 查看已安装的软件 记住要卸载的软件的名字 sudo apt-get remove –-purge 要卸载的软件的名字 #卸载软件同时删除配置文件 sudo apt-get remove 要卸载的软件的名字 #卸载该软件 出现此界面为卸载并删除配置文件成功。 二、apt缓存删…