PostgreSQL源码分析之解析配置文件-Bean

潜心修行bean.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Bean_lee

博客访问： 3925150
博文数量： 146
博客积分： 3918
博客等级：少校
技术积分： 8585
用户组：普通用户
注册时间： 2010-10-17 13:52

个人简介

个人微薄： weibo.com/manuscola

文章分类

全部博文（146）

ceph（5）
Go（6）
LISP（3）
shell（5）
UI（3）
DB（13）
PHP（0）
杂文（1）
Assembly（2）
Python（1）
Linux（23）
C（7）
algorthm（32）
Linux Kernel（29）
编译链接（14）
NETWORK（2）
未分配的博文（0）

文章存档

2016年（3）

2015年（2）

2014年（5）

2013年（42）

2012年（31）

2011年（58）

2010年（5）

我的朋友

相关博文

PostgreSQL源码分析之解析配置文件

分类： Mysql/postgreSQL

2013-04-05 14:20:57

最近在啃PostgreSQL的源码，看到了postgres进程加载配置这一块。对于服务器编程，加载配置几乎是不可避免的，因为为了可定制可配置，工程中总有一些配置项，在进程启动的时候加载，当然也可以进程运行过程中改变配置项。不同的项目，管理这些配置项的方法也各不相同。片汤话不多说，先看下PostgreSQL启动过程

pg_ctl提供了很多选项，比如stop，restart ，reload，status，我们上图给出的是start选项调用的流程。可以看到pg_ctl最后通过system函数，调用了另一可执行程序 postgres。稍等，PostgreSQL是如何找到可执行文件postgres的路径的？do_start函数中

exec_path = find_other_exec_or_die(argv0, "postgres", PG_BACKEND_VERSIONSTR)

是用来查找postgres的路径的。
postgres可执行文件的main函数的代码路径是在src/backend/main下面。postgres支持很多的参数，比如我们可以通过

postgres --describe-config

来获取postgre的当前配置。可以选择--single来进入single模式。这都不是我们今天的重点，所以我就不罗嗦了。
我们看下postgres代码流程如何进入解析postgres.conf的

这一部分逻辑在PostMasterMain比较早的地方进行的，初始化完内存内存上下文，初始化玩GUCoption，解析完入参，就开始解析配置文件了。
ParseConfigFile这个函数位于src/backend/utils/misc/guc-file.c中，这个guc-file.c很有意思，代码看的莫名其妙。刚开始看GUC_yylex看的我一头雾水，不知所云，代码跟踪到yylex跟踪不下去了。后来发现目录下还有一个guc-file.l的文件。我就差不多想到了这肯定与传说中的yacc and lex有关系。我首先翻看了Makefile，找到了如下code：

guc-file.c: guc-file.l
ifdef FLEX
$(FLEX) $(FLEXFLAGS) -o'$@' $<
else
@$(missing) flex $< $@
endif

    果然，guc-file.c是flex从guc-file.l中生成的。这就需要了解传说中的yacc and lex 以及传说中的flex and bison了。
    flex，全称是Fast Lexical Analyzer Generator。前身是lex。历史就比较有趣了，Eric Schmidt在1975年写了一个工具lex，这个工具被看作是yacc的兄弟，很有名气，尽管有点慢，而且bug有点多。1987年Vern Paxson写了flex，这个flex就比较好了，比较快，又可靠。值得一提的是Eric Schmidt，这个名字很熟悉吧，这是Google的执行主席。一起膜拜下大牛：

guc-file.l里面的解析稍微有点复杂，不利于我们入门。我找了Flex and bison这本书，练习了第一章的例子，算是基本入了门。
这个例子就如同Linux下的wc工具。我们看下代码：

root@manu:~/code/flex_bison# cat wc.l
/* just like Unix wc */
%{
int chars = 0;
int words = 0;
int lines = 0;
%}
%%
[a-zA-Z]+ { words++; chars += strlen(yytext); }
\n { chars++; lines++; }
. { chars++; }
%%
int main(int argc ,char* argv[])
{
yylex();
printf("%8d%8d%8d\n", lines, words, chars);
return 0;
}

flex程序分成三个部分，他们之间以%%隔开。第一部分是声明和配置选项设定（option setting），第二部分是模式和一些模式匹配后的动作，第三部分是C code。
要想将wc.l编译成C文件，需要安装flex，这我就不说了，apt-get install就好了。

root@manu:~/code/flex_bison# flex -o wc.c wc.l
root@manu:~/code/flex_bison# ll
总用量 60
drwxr-xr-x 3 root root 4096 4月 5 13:22 ./
drwxr-xr-x 9 manu root 4096 4月 4 22:10 ../
-rw-r--r-- 1 root root 44406 4月 5 13:22 wc.c
-rw-r--r-- 1 root root 313 4月 5 13:21 wc.l

我们看到生成了wc.c,然后调用gcc可以编译出可执行文件，注意要添加-lfl选项：

root@manu:~/code/flex_bison# ./wc
hello world！
this is a new line
2 7 32
root@manu:~/code/flex_bison#

可以看到wc程序帮我们统计了行数，单词数以及字符数。
我们看下PostgreSQL中guc-file.l中干的事情：

SIGN ("-"|"+")
DIGIT [0-9]
HEXDIGIT [0-9a-fA-F]
UNIT_LETTER [a-zA-Z]
INTEGER {SIGN}?({DIGIT}+|0x{HEXDIGIT}+){UNIT_LETTER}*
EXPONENT [Ee]{SIGN}?{DIGIT}+
REAL {SIGN}?{DIGIT}*"."{DIGIT}*{EXPONENT}?
LETTER [A-Za-z_\200-\377]
LETTER_OR_DIGIT [A-Za-z_0-9\200-\377]
ID {LETTER}{LETTER_OR_DIGIT}*
QUALIFIED_ID {ID}"."{ID}
UNQUOTED_STRING {LETTER}({LETTER_OR_DIGIT}|[-._:/])*
STRING \'([^'\\\n]|\\.|\'\')*\

这一部分本质是定义分词的规则，或者说定义pattern。+和-定义为符号，是正还是负，[0-9a-fA-F]定义为16进制数字，以此类推。从这个例子我们也能看出来为什么叫词法分析，本质就是切词。把很长的文本，用一定的规则，进行切成一个一个的token，或者一个个的小块。
怎么切分，就是模式匹配。定义好一些模式，匹配上的部分，被切出来，做相应的动作，如我们的wc程序，直接统计计数++，或者贴上相应的标签，如PostgreSQL中guc-file.l中那样，给第三部分进行处理。

\n ConfigFileLineno++; return GUC_EOL;
[ \t\r]+ /* eat whitespace */
#.* /* eat comment (.* matches anything until newline) */
{ID} return GUC_ID;
{QUALIFIED_ID} return GUC_QUALIFIED_ID;
{STRING} return GUC_STRING;
{UNQUOTED_STRING} return GUC_UNQUOTED_STRING;
{INTEGER} return GUC_INTEGER;
{REAL} return GUC_REAL;
= return GUC_EQUALS;
. return GUC_ERROR;
%%

切出来一个个的token怎么处理呢，先看下postgres.conf是格式：

datestyle = 'iso, ymd'
#intervalstyle = 'postgres'
timezone = 'PRC'
autovacuum_vacuum_threshold = 50
cpu_index_tuple_cost = 0.005

postgres配置文件里面的格式不外乎就这么几类，首先#开头的行都不需要处理了，因为comment都被忽略了。

#.* /* eat comment (.* matches anything until newline) */

除去comment行，一般配置项都是这种option_name = option_value的格式。前面是配置项的名字，后面是配置项的值。
配置项的值类型有不同，有些值是string类型,有些是INT型的整数，有些是REAL型的实数。理解到此处，第三部分处理分词部分，整体就比较简单了。基本奉行一下几点：
1 #开头的 comment行不处理
2 每行开头的token必须是GUC_ID or GUC_QUALIFIED_ID类型，可以想下，如果配置项的某一行是 0.4=abc，明显是不合法的，因为我们期待的格式是option_name=option_value

if (token != GUC_ID && token != GUC_QUALIFIED_ID)
goto parse_error;
opt_name = pstrdup(yytext)

3 option_name 之后，期待一个等号=，没有等号也没关系。将等号后面的token赋给option_value,字符串类型的话，特殊处理下，因为有转义字符之类的情况。

token = yylex();
if (token == GUC_EQUALS)
token = yylex();
/* now we must have the option value */
if (token != GUC_ID &&
token != GUC_STRING &&
token != GUC_INTEGER &&
token != GUC_REAL &&
token != GUC_UNQUOTED_STRING)
goto parse_error;
if (token == GUC_STRING) /* strip quotes and escapes */
opt_value = GUC_scanstr(yytext);
else
opt_value = pstrdup(yytext)

4 如果当前配置文件A包含了其他配置文件B，需要递归处理，解析配置文件B里面的配置

if (guc_name_compare(opt_name, "include_if_exists") == 0)
{
/*
* An include_if_exists directive isn't a variable and should be
* processed immediately.
*/
if (!ParseConfigFile(opt_value, config_file, false,
depth + 1, elevel,
head_p, tail_p))
OK = false;
yy_switch_to_buffer(lex_buffer);
pfree(opt_name);
pfree(opt_value);
}
else if (guc_name_compare(opt_name, "include") == 0)
{
/*
* An include directive isn't a variable and should be processed
* immediately.
*/
if (!ParseConfigFile(opt_value, config_file, true,
depth + 1, elevel,
head_p, tail_p))
OK = false;
yy_switch_to_buffer(lex_buffer);
pfree(opt_name);
pfree(opt_value);
}

OK，解释到此，基本没啥好讲的了。几乎稍微大的项目，都会遇到解析配置项这个问题。我们team也不例外，当然我们team采用另外一套方法保存配置项加载配置项，信息安全考虑，我就不介绍我们team的方法了。PostgreSQL采用了用flex进行分词，获取option_name和option_value。通过这个例子，我初步学习了flex，其实也学习了下bison。和本主题无关，就不多讲了。

参考文献：
1 PostgreSQL 9.2.3 source code
2 flex and bison

阅读(6205) | 评论(0) | 转发(1) |

上一篇：二叉树的可视化

下一篇：glib中hash table

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6