大家好，又见面了，我是你们的朋友全栈君。

正则表达式基础讲解

代码代写(实验报告、论文、小程序制作)服务请加微信：ppz2759

一、什么是正则表达式

在网络爬虫将网页内容爬取的时候，有一个关键的步骤就是对我们关注的信息进行提取，正则表达式就是用于信息筛选提取的强大工具，并且学习简单，所以建议大家掌握。

Python正则表达式语句

import re

re.compile(“正则表达式”).findall(“原字符串”)
//例子：
# job_add_s = '<span class="t3">(.*?)</span>'
# job_add = re.compile(job_add_s, re.S).findall(data)[1:]

1.匹配符

普通字符			正常匹配其中的字符。
\n				匹配换行符。
\t				匹配制表符。
\w				匹配字母、数字、下划线。
\W				匹配除了字母、数字、下划线的字符串。字母大写相当于非（个人总结）
\d				匹配十进制数字
\D				匹配除了十进制数字的字符串
\s				匹配空白字符
\S				匹配非空白字符
[asd213]		匹配中括号中的任意一个字符
[^asd213]		匹配中除了括号中的任意一个字符

实例1

源字符串："chengxuyuanxiaozhe666"
正则表达式："xiaozhe"
匹配后："xiaozhe"

实例2

源字符串："chengxuyuanxiao
zhe666"
正则表达式："xiao\nzhe"
匹配后："xiao\nzhe"

实例3

源字符串："chengxuyuanxiaozhe666"
正则表达式："\w\w\w\d\d\d"
匹配后："zhe666"

实例4

源字符串："chengxuyuanxiaozhe666"
正则表达式："xia[asdo]zhe"
匹配后："xiaozhe"

2.特殊字符

想单纯的使用以下字符，需要在前面加一个\，如$。

.				匹配除换行符 \n 之外的任何单字符。
^				匹配输入字符串的开始位置。
$				匹配输入字符串的结尾位置。 
*				前一个字符出现零次或多次。
+				前一个字符出现一次或多次。
?				前一个字符出现零次或一次。
{ 
   n}				前一个字符恰好出现n次
{ 
   n,}			前一个字符至少出现n次
{ 
   n,m}			前一个字符至少n次，至多m次
|				指明两项之间的一个选择。
()				标记一个子表达式的开始和结束位置。

实例1

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："xiao..."
匹配后："xiaozhe"

实例2

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："^xiaozhe..."//从第一个字母开始匹配
匹配后：None

实例3

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："^chengxuyuan"
匹配后："chengxuyuan"

实例4

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："zuishuai$"//从最后一个字母开始匹配
匹配后："zuishuai"

实例5

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："cheng.*"//*前一个字符出现零次或多次。//.匹配除换行符 \n 之外的任何单字符。
匹配后："chengxuyuanxiaozhe666zuishuai"//默认贪婪尽可能多的匹配

实例6

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："zhe6+"
匹配后："zhe666"

实例7

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："zhe6?"
匹配后："zhe6"

实例8

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："zhe6{1,2}"
匹配后："zhe66"

实例9

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："^cheng(xu....)"
匹配后："xuyuan"

3.贪婪模式与懒惰模式

贪婪模式：就是尽可能多的匹配，默认贪婪模式
懒惰模式：就是尽可能少的匹配，也叫精准模式
当出现以下组合时，才代表是懒惰模式：

*?				懒惰模式//？不代表0或1了
+?				懒惰模式//？不代表0或1了

实例1

源字符串："chengxuyuanxiaozheezhe666zuishuai"
正则表达式："xiao.*e"
匹配后："xiaozhezhe"//默认贪婪模式，尽可能多的匹配

实例2

源字符串："chengxuyuanxiaozhezhe666zuishuai"
正则表达式："xiao.*?e"
匹配后："xiaozhe"//懒惰模式，尽可能少的匹配

4.模式修正符

在不改变正则表达式的情况下，通过模式修正符使匹配结果发生改变。
这个看不懂没关系，下面的例子就懂了

re.compile(“正则表达式”).findall(“原字符串”)			//原匹配语句
re.S				//使.也可以匹配换行
re.I				//匹配时候忽略大小写

实例1

源字符串："XiaoZhe"
正则表达式："xiao"
匹配语句：re.compile("xiao").findall("XiaoZhe")
匹配后：None

实例2

源字符串："XiaoZhe"
正则表达式："xiao"
匹配语句：re.compile("xiao",re.I).findall("XiaoZhe")
匹配后："Xiao"

实例3

源字符串："cheng\nxuyuan\nxiao\nzhe"
正则表达式："cheng.*zhe"
匹配语句：re.compile("cheng.*zhe").findall("XiaoZhe")//.不包括回车
匹配后：None

实例4

源字符串："cheng\nxuyuan\nxiao\nzhe"
正则表达式："cheng.*zhe"
匹配语句：re.compile("cheng.*zhe",re.S).findall("XiaoZhe")
匹配后："cheng\nxuyuan\nxiao\nzhe"

以上就是个人总结的关于正则表达式的知识点，望采纳
除了正则表达式外，我还推荐大家学习另一款XPath表达式，非常简单，比较重要，
XPath表达式在我的另一篇博客有介绍，如果没看到说明还没写完哈
在这里插入图片描述

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/159786.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

网络爬虫——正则表达式语法

正则表达式基础讲解

一、什么是正则表达式

Python正则表达式语句

1.匹配符

实例1

实例2

实例3

实例4

2.特殊字符

实例1

实例2

实例3

实例4

实例5

实例6

实例7

实例8

实例9

3.贪婪模式与懒惰模式

实例1

实例2

4.模式修正符

实例1

实例2

实例3

实例4

发表回复

网络爬虫——正则表达式语法

正则表达式基础讲解

一、什么是正则表达式

Python正则表达式语句

1.匹配符

实例1

实例2

实例3

实例4

2.特殊字符

实例1

实例2

实例3

实例4

实例5

实例6

实例7

实例8

实例9

3.贪婪模式与懒惰模式

实例1

实例2

4.模式修正符

实例1

实例2

实例3

实例4

相关推荐

reaver使用方法

python实现量化交易策略

fpga流水线设计思想_fpga视频容易入门

a 标签中 写页面刷新代码

cut it out什么意思_cutout例句

idea全局搜索文件名_linux 搜索文件名

发表回复

a 标签中写页面刷新代码