Online在5版本时可以存储任何字符串,包括所有中文字符串与英文字符串,不加任何限制,不需安装其它附加产品,不必设置其它环境变量。
Online在7.2版以前遵从X/Open的NLS(Native Language Support)的标准支持中文(XPG3规范),不必安装附加语言支持产品。这是一种单字节的支持方式,前提是操作系统也要支持NLS,换句话说,Online是基于操作系统支持中文的。一般设置操作系统环境变量LANG之后,重新启动Online后,原来的数据库即可处理中文,有时也要设DBNLS环境变量。不同的操作系统的LANG的设置方法一般不同,下面列出HP和SCO上的设法: SCO UNIX:export LANG = english_us.8859 HP-UX: export LANG = en_US.iso88591
ONLINE在7.2以上版本采用GLS(Global Language Support)的方式支持中文,GLS是基于X/Open的XPG4规范之上开发的,这是一种多字节的全球语言支持方式。在安装完Online之后,必须正确安装Informix - Language Supplement ZHCN产品,并设置适当的环境变量,然后启动ONLINE,重新建立数据库,才可处理汉字。方法如下: 1)按照INFORMIX产品安装方法,最后安装Informix Language Supplement ZHCN。 2)一般设置下面三个环境变量: export DB_LOCALE=zh_CN.gb export CLIENT_LOCALE=zh_CN.gb export SERVER_LOCALE=zh_CN.gb 除了这三个环境变量之外,DBLANG=en_us.8859-1可以指定Informix产品内部使用英文。 3)正常启动ONLINE。 4)重新建立数据库
本技术说明使用的术语和首字母缩略词包括:
GLS 全球语言支持(Global Language Support)。 语言环境(Locale) 语言、地域和代码集 本地化(Localize) 使软件用于特定的语言环境 国际化(Internationalize) 使软件用于任何语言环境 UDR 用户定义的例程 简介
国际化的用户定义的例程(UDR)无需修改和重新编译源代码即可支持不同的语言和文化约定。
Informix GLS 库是一个 API,它让 UDR 处理单字节和多字节字符并管理日期、时间和数值的不同数据格式。GLS 函数可以在运行时访问特定于语言环境的信息,因而 UDR 无需知道客户机的语言环境,就可以让客户机采取正确的行为。
本技术说明突出说明了实现国际化的 UDR 时要考虑的问题,并指出了您可能要为特定语言额外提供的支持。
GLS 概述与定义
全球语言支持(Global Language Support (GLS))是允许 Informix 产品、单个应用程序或 UDR 支持多种语言的 Informix 特性。本节概述了一些重要术语。
GLS 语言环境
对应于语言、地域和代码集:
语言(language)指定可以使用的字符种类、如何对字符进行排序和比较、字母大小写转换和消息。
地域(territory)确定日期、时间、货币和数字的格式。
代码集(code set)包括单字节和多字节字符串处理,以及同一字符在客户机和服务器上不同表示法之间的代码集转换。
缺省的 Informix 语言环境如下:
en_us.8859-1 UNIX 8859-1 是 ISO8859-1 代码集。 en_us.1252 Windows 1252 是 Microsoft 代码集。
ISO8859-1 代码集有另外一些形式。0333 是其精简形式,而 IBM 又将 ISO8859-1 注册为 CCSID 819。因此以下三种语言环境指的是同一代码集:
en_us.8859-1
en_us.0333
en_us.819
Informix 使用以下环境变量来指定语言环境:
CLIENT_LOCALE 客户机应用程序使用的语言环境。 DB_LOCALE 数据库中数据的语言环境。 SERVER_LOCALE 数据库服务器用于其特定于服务器的文件的语言环境。
国际化
指的是实现产品(如 DataBlade 模块),以便它们与语言无关。国际化的 UDR 无需更改或重新编译源代码即可支持不同语言、地域和代码集。
Informix 服务器是国际化的产品。Informix GLS 库提供了一些函数,以使 DataBlade 模块和客户机应用程序能使用 GLS 语言环境中的信息来:
处理单字节和多字节字符
格式化日期、时间和数值数据
本地化
指的是在运行时解析特定语言环境的信息,以使国际化的产品针对该语言环境正确执行;例如,本地化的应用程序使用户能看到用他们自己的语言显示的错误消息和用他们期望的格式显示的日期。
对特定语言环境的支持集中在一组文件中。(特定于语言环境的 DataBlade 消息存储在系统目录中)。UNIX glfiles 命令会输出 UNIX 系统支持的语言环境的列表。对于 Informix 分发版中没有包括的语言环境,International Language Supplement 提供语言环境、代码集转换和已翻译的用户界面与文档。
尽管本技术说明主要讨论 UDR 实现,但 DataBlade 开发人员也需要考虑任何客户机组件的国际化,这些组件是作为 DataBlade 模块的一部分而包括在模块中的。
GLS 产品
GLS 文档 DataBlade 开发人员需要以下文档:
Informix Guide to GLS Functionality 这是实现支持 GLS 的产品的核心文档。
Informix GLS Programmer's Manual 该手册描述如何使用 Informix GLS API 调用。
GLS documentation and Release Notes 请常常查看最新的分发版以获得新的信息:
$INFORMIXDIR/release
Informix DataBlade API Programmer's Manual 讨论用于产生错误和输出跟踪消息的 GLS 特性。
DataBlade Developers Kit User's Guide DBDK 生成使用 GLS 调用的源代码。
DataBlade 开发人员需要什么 Informix 产品? 您需要以下 Informix 产品来实现支持多语言的 DataBlade 模块:
Informix Dynamic Server
DataBlade Developers Kit BladeSmith 生成使用多个 GLS 库函数的代码,包括用于异常处理和跟踪的函数。
Client Software Development Kit
International Language Supplement (ILS),用于所有您计划支持但缺省分发版没有包括的语言环境(用 glfiles 命令检查),以使您能在每个语言环境中测试 blade 的行为。
您还需要前面的 GLS 文档一节中列出的文档。
客户需要什么 Informix 产品? 您的客户需要以下产品以在其语言环境中运行您的 DataBlade 模块:
Informix Dynamic Server
您的 DataBlade 模块
用于客户的语言环境的 International Language Supplement (ILS)(如果它尚未包括在分发版中的话)。
客户还必须通过适当地设置 CLIENT_LOCALE 和 DB_LOCALE 环境变量来正确地设置其 GLS 环境。
什么需要国际化/本地化?
DataBlade 模块开发人员必须同时解决国际化问题与本地化问题。首先,您需要实现 UDR 以使其与语言无关。也就是说,对于其要处理的数据,DataBlade 模块不对在运行时使用的语言、地域或代码集做任何假定。因此您就需要将任何与语言有关的部分(如错误消息)移植到您希望支持的每一个语言环境。本节概述了一些问题。
文本 I/O Informix GLS 库提供这样的函数,它们使用当前正在处理的语言环境中的信息来扫描和格式化多字节字符串、日期、数字和货币。使用这些函数来解析输入字符串或格式化输出字符串。它们在以下文档中有描述:
Informix Guide to GLS Functionality
Informix GLS Programmer's Manual
在何处将这一点应用到 UDR 的示例是对 opaque 类型外部(基于字符)格式的处理。
DBDK 为 opaque 类型输入/输出支持函数生成代码,该代码在 GLS 文本与 opaque 类型内部二进制表示法之间进行转换。
mi_get_string() 和 mi_put_string() DataBlade API 函数自动对字符串/文本数据执行代码集转换。
(对于数值数据的二进制传送,mi_put_* 和 mi_get_* 函数 — 用于 opaque 类型发送/接收支持函数 — 也会自动执行代码集转换)。
错误消息 syserrors 系统目录表存储 DataBlade 异常消息,这些消息可以通过向 mi_db_error_raise() 传递 MT_SQL 消息类型来产生。每个错误消息项都有与之相关的语言环境。当错误被产生时,服务器会设法将 CLIENT_LOCALE 与 syserrors 中的一个错误匹配。它首先进行显式匹配,如果找不到匹配的对象,则以下列次序进行搜索,尝试部分匹配:
确切的客户机语言环境 例如:es_es.8859-1
客户机语言环境的语言 + 地域 例如:es_es
仅客户机语言环境的语言 例如:es
缺省(en_us)语言环境 UNIX 上的 en_us.8859-1,以及 NT 上的 en_us.1252。
解析出最终缺省 en_us 语言环境的方法取决于用户是否设置了 CLIENT_LOCALE:
如果未设置 CLIENT_LOCALE,则根据语言环境的部分匹配得出缺省语言环境。 如果 en_us.1252(NT)错误位于 UNIX 服务器上的 syserrors 表中,则根据 en_us 部分匹配查找消息。
如果设置了 CLIENT_LOCALE,则根据对该平台的完全匹配解析出缺省语言环境。 如果 en_us.1252(NT)错误位于 UNIX 服务器上的 syserrors 表中,则将根据 en_us.8859-1 的完全匹配查找语言环境,从而产生 "Message cannot be found" 错误。
服务器的 9.2 发行版都将执行 en_us 语言环境的部分匹配,而不管是否设置了 CLIENT_LOCALE。同时,要意识到 BladeSmith 缺省时生成语言环境为 en_us.1252 的消息。如果您的目标是 UNIX 系统,请将语言环境更改为 en_us.8859-1。如果您计划支持 NT 和 UNIX,请同时向两个语言环境注册同一错误消息。
您还可以将 DataBlade 异常消息翻译成您打算支持的各种特定语言,并将这些消息存储在 syserrors 系统目录表。(顺便说一下,如果您希望使用 UDR 插入本地化的消息,请参阅下面的“从 UDR 将本地化错误消息插入到 syserrors 中”一节)。
请参阅 Informix DataBlade API Programmer's Manual 中“Exception Raising”一节和下面的示例。
跟踪消息 systracemsgs 系统目录存储可以用 gl_tprintf() 输出的 DataBlade 跟踪消息。除了翻译所有要显示给最终用户的跟踪消息以外,请务必提供 en_us 缺省消息。
请参阅 Informix DataBlade API Programmer's Manual 中的“DataBlade API Support for an Internationalized UDR”一节。
查询处理 Informix 支持用于数据库对象的名称(如表和列)的多字节字符。当然,表可以在 NCHAR 和 NVARCHAR 列中存储包含多字节字符的值。
检查使用 mi_exec() 或 mi_exec_prepared_statement() 执行 SQL 查询的任何 UDR。如果查询可以访问用户定义的数据库对象或获取用户提供的数据,则 UDR 应该在创建 SQL 语句和获取查询结果时准备好处理非 ASCII 字符。
示例
错误消息 RGBA DataBlade 模块实现管理计算机颜色的 opaque 类型。
用于 RGBA 的输入函数将外部(文本)表示法转换成内部的 C 数据结构。当填充了 C 结构后,DataBlade 代码会检查每个元素是否在 0-255 内。如果用户输入 256,则根据用户的语言环境会产生与下面相似的错误:
语言环境 错误消息 en_us.1252 (URGB1) - RGBAInput: R value 256 is not within the valid range of 0-255. es_es.8859-1 (URGB1) - RGBAInput: el valor R 256 no calza entre los limites de 0-255.
本节描述源代码需要做什么、要将什么消息存储在 syserrors 表中,以及数据库服务器如何决定输出哪个错误。
下面的代码演示输入函数如何检查 RGBA 的红色部分以及如何产生错误。
if(Gen_RetVal->red < 0 || Gen_RetVal->red > 255) mi_db_error_raise ( Gen_Con, /* Connection handle */ MI_SQL, /* Message type */ "URGB1", /* SQLSTATE in syserrors */ "FUNCNAME%s", /* token takes string */ "RGBAInput", /* value for FUNCNAME */ "value%d", /* token takes an integer */ (mi_integer) Gen_RetVal->red, /* value for value token */ NULL /* No more tokens */ ); mi_db_error_raise() 调用中的 MI_SQL 消息类型表明应该根据第三个参数中的 SQLSTATE 值在 syserrors 系统目录表中查找错误。如果我们从 syserrors 系统目录进行选择,我们会看到有两个不同的“URGB1”错误:
> select * from syserrors where sqlstate='URGB1';
sqlstate URGB1 locale en_us.1252 level 0 seqno 1 message %FUNCNAME%: R value %value% is not within the valid range of 0-255.
sqlstate URGB1 locale es_es.8859-1 level 0 seqno 1 message %FUNCNAME%: el valor R %value% no calza entre los limites de 0-255. 用以下 SQL 插入(insert)语句将这些异常消息插入到 syserrors 系统目录表中:
insert into informix.syserrors (level, seqno, sqlstate, locale, message) values ( 0, 1, "URGB1", "en_us.1252", "%FUNCNAME%: R value %value% is not within the valid range of 0-255." );
insert into informix.syserrors (level, seqno, sqlstate, locale, message) values ( 0, 1, "URGB1", "es_es.8859-1", "%FUNCNAME%: el valor R %value% no calza entre los limites de 0-255." ); RGBA 项目是通过 BladeSmith 使用的缺省语言环境 en_us.1252 生成的。我们稍后就会看到当在 UNIX 机器上遇到错误时这有什么影响。
以下示例假定在 Solaris 机器上运行,机器有缺省的 en_us.8859-1 语言环境。如果未设置 CLIENT_LOCALE,服务器会查找缺省美式英语语言环境的部分匹配,并输出该消息:
bladerunner% echo $CLIENT_LOCALE CLIENT_LOCALE: Undefined variable
bladerunner% dbaccess colors -
> create table colors (id serial, color rgba);
> insert into colors values (0, '255 0 255 0');
> insert into colors values (0, '256 0 255 0');
(URGB1) - RGBAInput: R value 256 is not within the valid range of 0-255. 如果设置了 CLIENT_LOCALE,则如果该语言环境存在,服务器会为该语言环境输出消息:
bladerunner% setenv CLIENT_LOCALE es_es.8859-1
bladerunner% dbaccess colors -
> insert into colors values (0, '256 0 255 0');
(URGB1) - RGBAInput: el valor R 256 no calza entre los limites de 0-255. 首先服务器设法匹配整个语言环境。如果找不到匹配,则它会尝试匹配语言和地域。如果仍找不到匹配,则它会尝试只匹配语言。例如,将西班牙语消息输入到 syserrors 中,其语言环境为 es_es.8859-1。即使客户机有不同的代码集,仍可解析出消息:
bladerunner% setenv CLIENT_LOCALE es_es.CP1252 bladerunner% dbaccess colors -
> insert into colors values (0, '256 0 255 0');
(URGB1) - RGBAInput: el valor R 256 no calza entre los limites de 0-255. 接下来我们将 CLIENT_LOCALE 设置为在 syserrors 中没有项的德语语言环境。如果服务器不能根据部分匹配找到适合语言环境的消息,它会寻找 en_us 语言环境的完整匹配。在这种情况下,我们缺省的 UNIX 语言环境是 en_us.8859-1,但 en_us 错误消息是用于 en_us.1252 的,因此它输出 "message cannot be found" 错误:
bladerunner% setenv CLIENT_LOCALE de_de.8859-1
bladerunner% dbaccess colors -
> insert into colors values (0, '256 0 255 0');
(URGB1) - Message cannot be found. 因此,对于每个您计划运行的平台,请确保在它的缺省语言环境中插入了英语消息:en_us.8859-1(UNIX)和 en_us.1252(NT)。
从 9.2 开始,服务器将对 en_us 语言环境完成部分匹配,并且将不再有插入重复的 en_us 错误的必要。
浮点值 ifx_gl_format_number() 和 ifx_gl_convert_number() 在文本字符串和浮点变量之间进行转换。然而,两个函数都将浮点值存储为十进制。因为双精度值的范围大于十进制的范围,所以这两个函数无法转换非常大的浮点值。
9.2 中的两个新函数 ifx_gl_format_double() 和 ifx_gl_convert_double() 使用双精度而不是十进制。遗憾的是,新函数的函数原型不小心在 $INFORMIXDIR/incl/public/ifxgls.h 中被省略了,因此在下面包括它们:
MI_EXT_DECL int ifx_gl_convert_double (double *d, char *dstr, char *format);
MI_EXT_DECL int ifx_gl_format_double ( char *dstr, int len, double d, char *format); 下面的 GetDouble() UDR 显示了如何将 mi_lvarchar UDR 参数转换成双精度值。如果传递给它的整数标志是 0,则它使用 ifx_gl_convert_number() 执行转换。否则,它使用 ifx_gl_convert_double() 执行转换。
#include #include
mi_double_precision * GetDouble (mi_lvarchar *Gen_param1, mi_integer flag, MI_FPARAM *fp) { mi_double_precision *retval=NULL; gl_mchar_t *Gen_InData; int status, glerror; /* ifx_gl_* return code */ mi_decimal dec_number; /* for ifx_gl_convert_number */ double d=0; /* double result */ mi_string errbuf[80];
/* Allocate the return value. */ retval = (mi_double_precision *)mi_alloc(sizeof(mi_double_precision)); if(retval == NULL) { mi_fp_setreturnisnull(fp, 0, MI_TRUE); mi_db_error_raise(NULL, MI_EXCEPTION, "mi_alloc failed!"); return (mi_double_precision *)NULL; }
/* Convert mi_lvarchar argument into a NULL-terminated string. */ Gen_InData = (gl_mchar_t *)mi_lvarchar_to_string(Gen_param1);
/* Convert the null-terminated string to a double. ** If the return value is not 0, the conversion failed and ** ifx_gl_lc_errno() retrieves a more specific error code. */
if(flag == 0) /* use ifx_gl_convert_number() */ { /* ifx_gl_convert_number() stores the result in a decimal ** variable, so it handles a smaller range than a double. */ status=ifx_gl_convert_number(&dec_number, Gen_InData, "%e"); if(status != 0) glerror=ifx_gl_lc_errno(); else dectodbl(&dec_number, (double *)&d); /* convert to double */ } else /* use ifx_gl_convert_double() */ { /* ifx_gl_convert_double() stores the result in a double ** variable. */ status=ifx_gl_convert_double(&d, (char *)Gen_InData, (char *)"%e"); if(status != 0) glerror=ifx_gl_lc_errno(); }
if(status != 0) { switch (glerror) { case IFX_GL_INVALIDFMT: sprintf(errbuf, "GetDouble: conversion failed [%d:IFX_GL_INVALIDFMT]", status); break; case IFX_GL_PARAMERR: sprintf(errbuf, "GetDouble: conversion failed [%d:IFX_GL_PARAMERR]", status); break; default: sprintf(errbuf, "GetDouble: conversion failed [%d:%d]!", status,glerror); break; }
mi_fp_setreturnisnull(fp, 0, MI_TRUE); mi_db_error_raise(NULL, MI_EXCEPTION, errbuf); return (mi_double_precision *)NULL; }
mi_free(Gen_InData); /* mi_lvarchar_to_string() allocated val */
*retval = (mi_double_precision) d; return retval; } 如果传递给 GetDouble() 的整型参数是 0,则底层的代码使用 ifx_gl_convert_number()。以下两个查询中的数字足够小,可以以十进制存储:
execute function GetDouble("1234.5",0);
(expression)
1234.500000000
1 row(s) retrieved.
execute function GetDouble("9.875e-43",0);
(expression)
9.875e-43
1 row(s) retrieved. 然而,接下来的数字对于十进制而言太大了,所以查询失败:
execute function GetDouble("1.000000e+150",0);
(expression)
(U0001) - GetDouble: conversion failed [-1:IFX_GL_PARAMERR] Error in line 24 Near character position 45 如果传递给 GetDouble() 的整型参数是 1,那么底层代码使用 ifx_gl_convert_double(),它直接以双精度存储结果。所有的查询都会成功。
execute function GetDouble("1234.5",1);
(expression)
1234.500000000
1 row(s) retrieved.
execute function GetDouble("9.875e-43",1);
(expression)
9.875e-43
1 row(s) retrieved.
execute function GetDouble("1.000000e+150",1);
(expression)
1.000000e+150
1 row(s) retrieved. 从 UDR 将本地化错误消息插入到 syserrors Datablade 开发人员可能需要将语言环境与当前会话不同(例如,希望安装 SJIS 消息而当前会话的 DB_LOCALE 被设置为 EUC)的本地化错误消息插入到 syserrors 表中。当消息的语言环境与会话的语言环境不同时,通过 SQL 脚本装入消息或使用 mi_exec() 从 UDR 装入消息的正常过程是不可靠的,因为 SQL 解析器不能识别的字符将触发错误条件。
通过创建一个 UDR,它使用预编译的包含 sqlstate 占位符和消息数据的语句(mi_prepare())来装入错误消息,可以避免这个 SQL 解析器问题。稍后,在对执行预编译的语句(mi_exec_prepared_statement())的调用中提供数据。
下面的 UDR 代码演示了如何将语言环境的 sqlstate 和消息列字符串编辑成消息数组,然后将其作为数据传递以将消息插入到 syserrors。由于可读性原因,演示的特定语言环境是 EUC,但该方法可用于任何语言环境。
#include #include #include "mi.h"
#define MAX_MSG 3 char *enus_msg[MAX_MSG][2] = { "XT010", "First error message for insertion", "XT020", "Second error message for insertion", "XT030", "Third error message for insertion" };
/* * Title: gls_insert_enus * Purpose: Add localized messages to the system error table 'syserrors' * for given locale independent of locale setting of session. */ mi_integer gls_insert_enus() { MI_DATUM args[2]; /* pointers to column values */ mi_integer lens[2]; /* lengths of column values */ mi_integer nulls[2]; /* null capability of columns */ mi_string *types[2]; /* types of columns */ mi_integer i; MI_STATEMENT *stmt; MI_CONNECTION *conn = mi_open(NULL, NULL, NULL);
/* * Prepare statement using placeholder values for sqlstate and message * columns while providing fixed values for locale, level, seqno columns. */ stmt = mi_prepare(conn, "insert into syserrors values(?,'en_us.8859-1',0,1,?)", NULL);
for (i=0; i{ args[0] = (MI_DATUM)enus_msg[0]; /* Set pointer to sqlstate string */ lens[0] = strlen(args[0]); /* Set length of sqlstate string */ nulls[0] = MI_FALSE; /* Set null handling capability */ types[0] = "char(5)"; /* Set sqlstate column type */
args[1] = (MI_DATUM)enus_msg[1]; /* Set pointer to message string */ lens[1] = strlen(args[1]); /* Set length of message string */ nulls[1] = MI_FALSE; /* Set null handling capability */ types[1] = "varchar(255)"; /* Set message column type */
mi_exec_prepared_statement(stmt,0,0,2,args,lens,nulls,types,NULL,NULL); }
mi_close(conn); return 0; }
已知问题
94450: ifx_gl_format_number() outputs %g incorrectly if value is very large
如果指数表示法中的字符串非常大,则输出会在“e”的后面插入空格。例如,值:
.123456789012e80
变成:
1.234567e 79
| | |