linux 正则表达式匹配（regex）-anqiu1987-ChinaUnix博客

镜待我心

首页　| 　博文目录　| 　关于我

anqiu1987

博客访问： 391435
博文数量： 80
博客积分： 0
博客等级：民兵
技术积分： 1767
用户组：普通用户
注册时间： 2013-01-24 16:18

个人简介

为啥不能追求自己的爱好一辈子呢

文章分类

全部博文（80）

云计算（1）
iproute2（2）
监控（1）
linux api（1）
C/C++（1）
elf（1）
ubuntu（2）
文件（1）
web（3）

性能（1）
优化（2）
sed（1）
linux_tool（5）

emacs（0）

vim（0）
虚拟化（1）
shell（7）
aio（2）
lievent剖析（5）
每日一记（5）
网络编程（6）
unix高级编程（1）
面试（1）
python学习（4）
数据库（3）
linux学习（11）

调试（1）
算法学习（2）
操作系统（11）

键盘鼠标（0）

linux_0.11（1）

内核工具（3）

内核引导启动程序（7）
未分配的博文（0）

文章存档

2017年（1）

2015年（2）

2014年（18）

2013年（59）

我的朋友

相关博文

linux 正则表达式匹配（regex）

分类： LINUX

2014-01-17 10:48:46

今天偶然的一次看到了某个人写的grep的代码，里面用了regex的代码，这个是linux系统库里面默认提供的
就稍微的研究了一下，有兴趣的同学可以通过man regex看。

这里就简单的列出来相关的api

点击(此处)折叠或打开

#include <sys/types.h>
#include <regex.h>
int regcomp(regex_t *preg, const char *regex, int cflags);
int regexec(const regex_t *preg, const char *string, size_t nmatch,regmatch_t pmatch[], int eflags);
void regfree(regex_t *preg)

大体就这三个api，regcomp 这个函数是吧一个正则表达式，转变成一个regex_t结构的值，应该是库可以识别的,regexec是执行
具体的匹配。
下面列出来主要的参数，
   regex_t *preg          这个是根据regex匹配规则由库生成的。所以我们只需要定义变量，把地址传入。
   const char *regex   这个是我们的匹配规则
   cflags                        这个是参数有很多下面之列出两个。
   REG_EXTENDED     表示适用Extended Regular Expression
   REG_NOSUB            只会返回匹配与否，不会把匹配的具体细节表示出来。

regexec 是执行具体的匹配，其中的参数如下：
   preg                         这个是regcmp产生的正则结构
   string                      这个是要匹配的字符串
   nmatch                    一般这个表示pmatch的个数。
   pmatch                    如果没有指定REG_NOSUB，表示要返回详细信息，就是每一个匹配的子字符串
                                    他的结构如下
                                      typedef struct {
                                             regoff_t rm_so;   //这个表示匹配的偏移量，起始位置
                 regoff_t rm_eo;   //表示匹配的偏移量的末尾
            } regmatch_t;

eflags           我的例子中没用到

    注意这里的nmatch，和pmatch并不是吧所有的匹配都找出来的意思，只是在意个匹配中可能有group，
其中pmatch【0】会保存整个匹配的位置，pmatch[1...2]会保存group匹配。group的概念其实就是匹配
的字串加上小括号。下面的例子很容易说明。

点击(此处)折叠或打开

#include
#include
#include
#include
int main()
{
      char *haa = "a very simple simple simple string";
         char       *regex = "([a-z]+)[ \t]([a-z]+)";
    regex_t comment;
    size_t nmatch;
    regmatch_t regmatch[100];
    regcomp(&comment, regex, REG_EXTENDED|REG_NEWLINE);
    int j = regexec(&comment,haa,sizeof(regmatch)/sizeof(regmatch_t),regmatch,0);
    if(j != 0)
        return -1;
    //输出匹配字串
    for(int i = 0; i< 100 && regmatch[i].rm_so!= -1;i++)
    {
        std::string str;
        str.assign(haa+regmatch[i].rm_so, regmatch[i].rm_eo - regmatch[i].rm_so);
        printf("%s\n",str.c_str());
    }
regfree(&comment);
return 0;
}

结果为：

点击(此处)折叠或打开

a very
a
very

如上所示，他只匹配了第一个 a very ，但是因为有（）,group也会匹配到子串里面。，如果想要全部找到，需要在外层循环匹配啦。
下面写个有点小错误的，但是确实表现了reg。

点击(此处)折叠或打开

#include<sys/types.h>
#include<regex.h>
#include<string>
#include<stdio.h>
int main()
{
char *haa = "a very simple simple simple string";
char *regex = "([a-z]+)[ \t]([a-z]+)";
regex_t comment;
size_t nmatch;
regmatch_t regmatch[100];
regcomp(&comment, regex, REG_EXTENDED|REG_NEWLINE);
while(1)
{
int j = regexec(&comment,haa,sizeof(regmatch)/sizeof(regmatch_t),regmatch,0);
if(j != 0)
break;
for(int i = 0; i< 100 && regmatch[i]. -1;i++)
{
std::string str;
str.assign(haa+regmatch[i].rm_so, regmatch[i].rm_eo - regmatch[i].rm_so);
printf("%s\n",str.c_str());
}
if(regmatch[0].rm_so != -1)
haa+= regmatch[0].rm_eo;
}
regfree(&comment);
return 0;
}

附上结果

点击(此处)折叠或打开

a very
a
very
simple simple
simple
simple
simple string
simple
string

其实 very simple 也算是啦。

阅读(6046) | 评论(0) | 转发(0) |

上一篇：c++ 右移

下一篇：shell 重定向的妙用

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6