正则表达式与文本处理器

文本处理器三剑客:grep(查找) sed  awk

正则表达式:由一类特殊字符以及文本字符所编写的一种模式,处理文本当中的内容

其中的一些字符不表示字符的字面含义,这些字符表示控制或者通配的功能

通配符:匹配文件名和目录名,不能匹配文件内容

正则表达式有两种匹配结果:命令结果和文件内容都可以进行匹配

通配符:

*:匹配任意一个或多个字符              例:ls  *.txt

?:匹配任意一个字符                      例:ls  ?,txt

[ ] :匹配范围内的任意单个字符        例:touch  {a..z}.txt     ls  [a-b].txt

正则表达式:有两种形态   1、基本正则表达式  2、拓展正则表达式  两者仅限于写法上的区别,其他一样

基本正则:字符匹配,元字符,匹配的部分需要用引号引起来

.:表示匹配任意的单个字符,可以是一个汉字   例:ls  |  grep  "12."

:表示转义符   .才是表示一个点

():表示分组的意思    ():这时仅表示( )

[ ]:匹配已指定范围内的任意单个字符     

例:[0-9]  [A-Z]  [a-z]               ls  |  grep  "[0-9]"    显示所有:ls  |  grep  "[0-9  a-z  A-Z]"   标准写法

[ ^ ]:表示取反,指定范围外的    

例:ls  |  grep  "[A-Z0-9.]"     .也算字符

例:以rc开头,任意单个字符,0-6的数字

 只匹配以rc.为开头的文件

 过滤/etc/passwd中任意的两个字符r和t

 

总结:通配符不能完全匹配大小写,真正的大小写在正则表达式中

表示匹配不是a或者z的任意字符

正则表达式中表示次数的表达式:

*:匹配前面的字符任意次,0次也行,无数次也行,有多少匹配多少,没有也行

 .*:也是匹配任意长度的字符,但是至少要有一次,不包括0次

最少前面要有一个o,否则不匹配

 ?:表示匹配前面的字符0次或者1次(即可有可无)

 有则匹配,没有也匹配

+:匹配前面的字符至少一次,最多可以无数次

{n}:匹配前面的字符=n次   精确匹配  n:表示前面字符出现的次数,多一次少一次都不行、、

 

{m,n}:匹配前面的字符最少m次,最多n次

 

{,n}:匹配前面的字符最多n次     大于n不行    o最少出现n次

{n,}:匹配前面的字符至少n次     小于n不行

匹配次数就是核心

位置锚定:以什么为开头,以什么为结尾

^:以什么为开头,在模式的左侧   ^r  以r为开头

$:以什么最为结尾,在模式的右侧    r$  以r为结尾

^  root  $:用于匹配整行,而且整行中只有一个root,多一个少一个都不行

^$:匹配空行   

 

词首锚定和词尾锚定(用的较少)

词尾铆钉:<或者 b  推荐用b因为更直观,用b的位置来判断词首和词尾

词首锚定:>或者 b  

 例:

 

分组:用()进行表示   

精确匹配 {} 一定要连续出现     {,3} 就不用连续出现

{n} 表示正好n次,n次表示前面的字符必须连续出现才能出现

{,n} 只要出现几次都算,除非没有

例:

 

 

只匹配gogle 

|:表示逻辑或

 

扩展正则:就是把  去掉不用再写,但是也有要求 grep  要写成  grep  -E  或 egrep

 

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>