分类: LINUX
2009-10-06 22:03:07
国际化是指软件能用于多国语言环境的能力,它在系统的低层函数库中提供一组标准的函数接口,能根据本地化(locale)设置显示该地区语言环境的信息。本地化(Localization 简写为L10N)是指将本地区的语言环境数据安装在系统底层的数据库中,以便让系统函数存取来显示正确的文字信息。多语言化(Multilingualization 简写为M17N)是指程序可以处理多种语言的过程。本地化和多语言化都是国际化框架中的组成部份。
本地化在Linux中通过locale来设置程序运行的不同语言环境,locale是(Local Environment)的缩写,它是一个语言环境数据库。locale的命名规则为<语言>_<地区>.<字符集编码>,如zh_CN.UTF-8,zh代表中文,CN代表大陆地区,UTF-8表示字符集编码方式。在locale环境中,有一组变量,代表国际化环境中的不同设置:
LC_COLLATE
定义该环境的排序和比较规则
LC_CTYPE
用于字符分类和字符串处理,控制所有字符的处理方式,包括字符编码,字符是单字节还是多字节,如何打印等。是最重要的一个环境变量。
LC_MONETARY
货币格式
LC_NUMERIC
非货币的数字显示格式
LC_TIME
时间和日期格式
LC_MESSAGES
应用程序显示信息的语言。另外还有一个LANGUAGE参数,它与LC_MESSAGES相似,但如果该参数一旦设置,则LC_MESSAGES参数就会失效。LANGUAGE参数可同时设置多种语言信息,如LANGUANE="zh_CN.GB18030:zh_CN.GB2312:zh_CN"。
LANG
LC_*的默认值,是最低级别的设置,如果LC_*没有设置,则使用该值。类似于 LC_ALL。
LC_ALL
它是一个宏,如果该值设置了,则该值会覆盖所有LC_*的设置值。注意,LANG的值不受该宏影响。
一个例子:
设置前,使用默认locale: debian:~# locale LANG="POSIX" LC_CTYPE="POSIX" LC_NUMERIC="POSIX" LC_TIME="POSIX" LC_COLLATE="POSIX" LC_MONETARY="POSIX" LC_MESSAGES="POSIX" LC_PAPER="POSIX" LC_NAME="POSIX" LC_ADDRESS="POSIX" LC_TELEPHONE="POSIX" LC_MEASUREMENT="POSIX" LC_IDENTIFICATION="POSIX" LC_ALL= 设置后,使用zh_CN.GDK中文locale: debian:~# export LC_ALL=zh_CN.GBK debian:~# locale LANG=zh_CN.UTF-8 LC_CTYPE="zh_CN.GBK" LC_NUMERIC="zh_CN.GBK" LC_TIME="zh_CN.GBK" LC_COLLATE="zh_CN.GBK" LC_MONETARY="zh_CN.GBK" LC_MESSAGES="zh_CN.GBK" LC_PAPER="zh_CN.GBK" LC_NAME="zh_CN.GBK" LC_ADDRESS="zh_CN.GBK" LC_TELEPHONE="zh_CN.GBK" LC_MEASUREMENT="zh_CN.GBK" LC_IDENTIFICATION="zh_CN.GBK" LC_ALL=zh_CN.GBK
"C"是系统默认的locale,"POSIX"是"C"的别名。所以当我们新安装完一个系统时,默认的locale就是C或POSIX。
在Debian中安装locales的方法如下:
通过apt-get install locales命令安装locales包
安装完成locales包后,系统会自动进行locale配置,你只要选择所需的locale,可以多选。最后指定一个系统默认的locale。这样系统就会帮你自动生成相应的locale和配置好系统的locale。
增加新的locale也很简单,用dpkp-reconfigure locales重新配置locale即可。
我们也可手动增加locale,只要把新的locale增加到/etc/locale.gen文件中,再运行locale-gen命令即可生成新的locale。再通过设置上面介绍的LC_*变量就可设置系统的locale了。下是一个locale.gen文件的样例。
# This file lists locales that you wish to have built. You can find a list # of valid supported locales at /usr/share/i18n/SUPPORTED. Other # combinations are possible, but may not be well tested. If you change # this file, you need to rerun locale-gen. # zh_CN.GBK GBK zh_CN.UTF-8 UTF-8
在安装了locale支持的系统中,在/usr/share/locale目录下保存locale的信息,在/usr/share/consolefonts目录下保存字体信息,在/usr/lib/gconv目录下保存字符转换模块的信息。总结:如果要在Linux下正确显示中文信息,需要做以下工作。
系统本身要有国际化支持,Linux的国际化支持是很完善的。
安装本地locale,如:zh_CN.GB2312、zh_CN.UTF-8等。
安装中文字体,如:文泉驿和文鼎的中文字体等。
设置中文的环境变量,如:LANG=zh_CN.GB2312、LANG=zh_CN.UTF-8等。有几个地方都可以设置locale环境变量。
一个是在X Window的登录管理器中可以设置,如GDM、KDM。
一个是在X Window Session初始化时设置,在/etc/X11/Xsession.d目录下的所有脚本在X Window Session初始化时都会自动运行,所以我们可把export LANG="zh_CN.GB2312"这条设置命令放到任意的脚本中。建议放到中文输入法的启动脚本中。示例:(这是我手工创建的启动fcitx中文输入法的脚本91fcitx)
debian:/etc/X11/Xsession.d# cat 91fcitx export LANG="zh_CN.UTF-8" export XMODIFIERS="@im=fcitx" export XIM_PROGRAM=fcitx export XIM=fcitx fcitx&
在shell的启动脚本中设置,如在.bashrc、.bash_profile等文件中直接加入export LANG="zh_CN.UTF-8"命令。
还可以在shell中直接用export LANG="zh_CN.UTF-8"命令设置。但如果使用该命令设置的环境变量只在当前shell中有效。
在应用程序中配置使用中文显示。
要在Shell中正常显示系统的中文提示信息和支持中文输入。LANG和shell的编码配置需一致,并安装有中文locale。如:LANG和shell 的编码都配置成zh_CN.utf8,并安装有zh_CN.utf8这个locale。如果shell和LANG配置不同,则中文显示乱码;如果LANG 里设置的locale没有安装,则不能显示系统的中文提示信息,只会显示英文提示信息。
在不同的locale环境下会生成具有不同编码的文件,如在gb2312环境下创建的文件就具有gb2312编码,在utf-8环境下创建的文件就具有utf-8编码。如果我们在gb2312环境下打开 utf-8编码的文件中文部份就会显示乱码。在Linux中有一个叫iconv的程序可以帮助我们进行文件编码的转换工作。下面的示例是把一个使用 gb2312编码的文件转换成utf-8编码的文件:
debian:~/Desktop# iconv -f gb2312 -t utf-8 7月.txt -o 77.txt
-f选项指定源文件的编码,-t选项指定转换后文件的编码,7月.txt是要转换的文件,-o选项指定转换后输出的文件名。