分类:
2008-04-12 09:41:40
为 DB2 UDB for Linux, UNIX, and Windows 提供 Unicode 支持的实用方法 |
级别: 中级 Dirk Fechner (), IT 服务专家, IBM Software Group 2006 年 3 月 06 日 您可以设计您的 DB2® Universal Database™ for Linux®, UNIX®, and Windows®(DB2 UDB)数据库,从而通过 Unicode 支持实现数据库的国际化。本文解释 DB2 支持哪些编码,在规划数据库时需要考虑哪些问题,如何存储 Unicode 数据,如何将现有的非 Unicode 数据库迁移到 Unicode 数据库,以及如何输入数据。另外,还要学习 Java™ 应用程序如何访问 DB2 Unicode 数据并研究 Java 示例。 当今的应用程序常常设计为供国际化使用。这些应用程序可能需要处理不同语言的字符串。而 Unicode 正是一种与语言无关的字符表示标准。 由于 Java 编程语言已经在内部使用 Unicode 来表示字符,所以国际化应用程序的开发已经容易多了。但是,不能只考虑应用程序端。后端的数据库也必须能够处理 Unicode 字符。本文将讨论几个主题,帮助开发人员实现供国际化使用的 DB2 UDB 应用程序。 本文讨论以下主题:
只有一种 Unicode 标准,但是存在不同的 Unicode 字符编码方案。最常用的 Unicode 字符编码是 UTF-8 和 UCS-2:
正如前面提到的,完整的 Unicode 标准由超过 65000 个字符组成。在此范围之外的其他字符基本上属于可能不再使用的语言,或者使用的情况有限。例如,某些亚洲字符只在名字中使用。这些额外字符也称为补充字符,可以在 UTF-8 中用 4 字节表示。另外,还有一种称为 UTF-16 的编码方案,它也可以用来表示补充字符。为此,UTF-16 使用 2 x 2 字节。 DB2 UDB 只支持 UTF-8 和 UCS-2 编码。尽管 DB2 不支持补充字符,但是补充字符可以存储在 DB2 UDB 中。应该注意,超过 65000 个字符对于大多数应用程序足够了。在 Java 应用程序中处理补充字符需要特殊的机制。因此,处理补充字符不但需要数据库支持,还需要应用程序支持。 可以将 Unicode 数据存储在 DB2 Unicode 数据库中。在 Unicode 数据库中,所有的表都使用 Unicode 编码方案存储字符数据。DB2 还允许在非 Unicode 数据库中的 Unicode 表中使用 Unicode 格式存储字符数据。 Unicode 数据库只以 Unicode 格式存储字符数据,并不以 Unicode 格式显示数据。在创建数据库时,DB2 决定数据库的编码页。数据库的编码页可以隐式或显式地决定。 DB2 UDB for Linux, UNIX, and Windows 可以根据一个环境变量来隐式地决定编码页。在使用 CREATE DATABASE 语句创建数据库时,将从操作系统的地区设置推导出数据库的编码页。对于 Windows 操作系统,将从注册表中的 ANSI 编码页设置推导出数据库的编码页。对于 UNIX 操作系统,将从地区设置推导出环境,包括语言、区域和编码集。应该注意,注册表变量 DB2CODEPAGE 可以用来覆盖编码页。但是,如果 DB2CODEPAGE 注册表变量设置为不正确的值,那么可能会造成不可预期的结果和潜在的数据损失。 还可以在 CREATE DATABASE 语句中使用 USING CODESET 子句显式地指定编码页。带 USING CODESET UTF-8 子句的 CREATE DATABASE 语句表示数据库可以包含 UTF-8 或 UCS-2 编码的字符数据。为了清楚起见,建议显式地定义 Unicode 数据库:
其中的 codeset 应该以大写字符指定,比如 UTF-8,territory_name 是提供区域特定支持的编码,collating sequence 表示对字符数据进行比较的方法。 例如,
对于 DB2 for Linux, UNIX, and Windows V8.2 中的 Unicode 排序次序,可能的排序器如下:
在 DB2 UDB V8.2 之前,Unicode 数据库只能定义为排序次序 IDENTITY,这意味着按照字节编码对字符进行比较。总的来说,这个排序器采用的排序次序与对语言的自然预期不同。对于大写和小写的字母 A 到 C,排序次序 IDENTITY 采用的次序如下: IDENTITY: A B C a b c
在 V8.2 中,可以用排序次序 UCA400_NO 获得正确的 次序。排序器 UCA400_NO 采用以下次序: UCA400_NO: a A b B c C
在选择排序次序时,还应该考虑性能影响。细节请参见 Unicode Technical Consortium 上的 的性能部分。 在创建了数据库之后,修改数据库编码页的惟一方法是删除数据库并用新的编码页重新创建数据库。 在 Unicode 数据库中创建表时,表采用的 Character Code Set ID(CCSID)为 UNICODE。DB2 可以使用 UTF-8 或 UCS-2 格式存储 Unicode 数据。应该注意,UCS-2 格式与不带补充字符支持的 UTF-16 格式相同。DB2 的 Unicode 格式的特征如下: UTF-8 格式:
UCS-2 格式:
UTF-8 和 UCS-2 的字符长度总结如下: 表 1. UTF-8 和 UCS-2 的字符长度
例如,如果以 UTF-8 格式存储以下 5 个中文字符,那么至少需要用 CHAR(15) 定义一个表列: 如果以 UCS-2 格式存储同样的文本,那么只占用 10 字节: 可以用 GRAPHIC(5) 定义一个表列来存储这 5 个中文字符。应该注意,ASCII 中的所有字符在 UCS-2 中也是每字符占用 2 字节。 在非 Unicode 数据库中创建表时,表的默认 CCSID 是 ASCII。要想在非 Unicode 数据库中创建 Unicode 表,可以使用带 CCSID UNICODE 的 CREATE TABLE 语句。 不能在特定的列上指定 UNICODE,也不能在 DB2 for Linux, UNIX, and Windows 中的 Unicode 数据库中创建非 Unicode(ASCII)表。用 CCSID UNICODE 创建的表必须不包含图形化数据类型。这意味着非 Unicode 数据库中的 Unicode 表只能存储 UTF-8 编码的字符串。 在 DB2 UDB SQL Reference 中记录了几个限制(参见对 CREATE TABLE 命令的说明)。细节参见 。 在非 Unicode 数据库中创建 Unicode 表之前,必须先激活一个数据库配置参数 ALT_COLLATE(表示 Alternate Collating Sequence)。ALT_COLLATE 参数为 Unicode 表指定排序次序,目前只能是 IDENTITY_16BIT。如果不设置 ALT_COLLATE 参数,就不允许在非 Unicode 数据库中创建 Unicode 表,并会收到以下错误消息: SQL0622N The clause clause is invalid for this database.
要设置 ALT_COLLATE,可以使用以下命令: DB2 UPDATE DB CFG FOR TEST2 USING ALT_COLLATE IDENTITY_16BIT
利用非 Unicode 数据库中的 Unicode 表,DB2 支持一个区段编码页,SQL 语句可以在这个编码页下执行。尽管 Unicode 表和非 Unicode 表可以共存于一个数据库中,但是它们不能在一个 SQL 语句中相互交互,因为在同一个 SQL 语句中只能引用一种编码方案,要么是 ASCII,要么是 Unicode。如果一个 SQL 语句同时引用 ASCII 和 Unicode,就会接收到以下 DB2 SQL 错误:
在 Unicode 表中的 VARCHAR 或 VARGRAPHIC 列上创建索引时,需要注意索引键限制。当使用 VARCHAR 或 VARGRAPHIC 数据类型时,索引键限制可能减少。应该注意,DB2 索引键的大小限制为 1024 字节,而且索引键限制包括占用的所有字节。例如,在 Unicode 数据库中创建一个可空的 VARCHAR(1024) 列,然后在这个 VARCHAR(1024) 列上创建索引。会遇到以下错误:
造成这个错误的原因是,变化的长度占用 2 字节,null 占用 1 字节。只能在用 VARCHAR(1021) 定义的列上定义索引。 如果使用可空的 VARCHAR 列并只涉及 ASCII 字符(在 UTF-8 格式中每字符 1 字节),那么可以建立索引的最大字符长度是 1021 个字符。当对非 ASCII 字符建立索引时,最大字符长度将减少。 如果使用可空的 VARGRAPHIC 列,那么 1021 字节的索引限制仍然是对的。因为图形化字符总是 2 字节长的,所以可以建立索引的最大图形化字符长度是 510 个字符,列可以定义为 VARGRAPHIC(510)。索引键大小限制也应用于通过索引施加的那些约束。 使用 UTF-8 既有优点,也有缺点: 优点:
缺点:
使用 UCS-2 既有优点,也有缺点: 优点:
缺点:
因为编码集和区域只能在创建数据库时定义,之后不能修改这些设置,所以没有将非 Unicode 数据库迁移到 Unicode 数据库的简便方法。需要先创建一个使用编码集 UTF-8 的新 Unicode 数据库。然后从非 Unicode 数据库导出数据并将数据导入新的 Unicode 数据库。为了简化这个过程,DB2 数据转移实用程序(即 EXPORT、IMPORT 和 LOAD)可以执行自动化的编码页转换。但是,有一些应该注意的问题。如果没有考虑到这些问题,那么就可能遇到问题,甚至可能丢失数据。 对于数据转移,可以选择以下文件格式之一:
IXF 是一种二进制格式,不但包含数据,还包含对应表结构的信息。DEL 是一种定界的文本格式,其中的列由一个定界符分隔,行由换行符分隔。 IXF 格式的优点和缺点如下: 优点:
缺点:
DEL 格式的优点和缺点如下: 优点:
缺点:
如果将 DEL 文件中的数据导入或装载到 DB2 数据库中,在 IMPORT 和 LOAD 实用程序之间有一点重要的差异。IMPORT 实用程序总是执行数据文件编码页和数据库编码页之间的转换,而 LOAD 实用程序在默认情况下认为数据文件和数据库采用同样的编码页。如果编码页实际上不一样,那么就会将错误的 数据装载到数据库中。因此对于数据文件和数据库的编码页不同的情况,必须显式地将数据文件的编码页告诉 LOAD 实用程序,这要使用选项 MODIFIED BY CODEPAGE=codepage。这确保正确地执行编码页转换。 如果已经有了一个 Unicode 数据库,希望将数据传输到另一个 Unicode 数据库中,那么必须确保在数据传输过程中信息不受损。正如前面提到的,数据转移实用程序 EXPORT、IMPORT 和 LOAD 在数据文件和数据库之间执行自动化的编码页转换。如果将来自 Unicode 数据库的数据导出到一个客户机,但是这个客户机并不使用 Unicode 作为它的标准编码页,那么在写数据文件时可能会丢失数据。 例如,如果从 Windows 命令行调用 EXPORT 实用程序,命令行在默认情况下使用 Windows 编码页 1252。因此,数据文件也是用编码页 1252 创建的。EXPORT 实用程序执行从 Unicode(数据库编码页)到 1252(客户机编码页)的自动编码页转换。因为编码页 1252 只包含所有 Unicode 字符的一个子集,在编码页 1252 中没有对应编码的那些 Unicode 字符由一个所谓的替换字符来替代。 例如,一个 VARCHAR 列包含小写希腊字母 alpha(UTF-8=0xCEB1)。这个列的内容被导出到采用编码页 1252 的 DEL 文件中。用十六进制编辑器查看这个 DEL 文件,会显示以下值:
字符 alpha 被替换为替换字符(0x1A);在导出过程中信息(数据)就丢失了。为了避免这个问题,可以使用 DB2 注册表变量 DB2CODEPAGE 覆盖默认的客户机编码页。为了避免数据损失,应该将 DB2CODEPAGE 设置为 1208(Unicode)。重要的是,要在连接数据库之前设置 DB2CODEPAGE,因为数据转移实用程序会在建立数据库连接时判断编码页。再次进行同样的导出,但是在导出之前显式地将客户机编码页设置为 Unicode:
在这种情况下,字符 alpha 会正确地导出。在这个例子中,使用 DEL 文件作为导出的目标,但是对于 IXF 文件也是一样的。 与 ASCII 字符不同,输入 Unicode 字符可能有问题,因为许多字符不能通过键盘直接输入。在 Windows 中,可以使用 DB2 Command Center 和 Windows Character Map 在 Unicode 数据库中手动输入 Unicode 字符。 如果安装了必要的字体,DB2 Command Center 就能够表示 Unicode 字符。DB2 Technote #1200211 - 解释了如何安装 DB2 Command Center 可以使用的其他字体。 在 DB2 Command Center 的结果集选项卡中可以修改查询的结果集,并添加其他行。要通过 DB2 Command Center 的结果集选项卡输入 Unicode 字符,可以使用 Windows Character Map。可以通过执行命令 charmap 启动 Character Map。 在 Character Map 中,如果选择选项 Advanced View,那么可以选择 Unicode 作为 Character Set,然后可以搜索某些字符。另外,还可以在列表中寻找字符。但是,并不是每种字体都包含每个 Unicode 字符的表示。所以,可能必须选择另一种字体,才能找到某一 Unicode 字符。找到了想要的字符之后,可以使用 Copy 和 Paste 将它放到 DB2 Command Center 中。 如果不可能通过 DB2 Command Center 访问 Unicode 数据库,那么至少可以使用 Windows Character Map 查明 Unicode 字符的十六进制编码,并可以通过 DB2 CLP 输入它们。这种做法只对 UCS-2 编码的情况(即 GRAPHIC/VARGRAPHIC 列)有效,因为 Windows Character Map 只显示 UCS-2 的十六进制编码。可以使用以下语法在 SQL 语句中用十六进制编码输入字符:
例如,以下 INSERT 语句将由 alpha、beta 和 gamma 组成的字符串存储在 UCTABLE_1 表的 GRAPHIC 列 UCS2COL 中: INSERT INTO UCTABLE_1 (UCS2COL) VALUES (GX'03B103B203B3')
如果知道字符的 UTF-8 编码,也可以用这种方法在 CHAR 或 VARCHAR 列中输入 Unicode 字符。在这种情况下,语法 X'十六进制编码' 就足够了,因为并不处理图形化列。所以 UTF-8 的 INSERT 语句像下面这样: INSERT INTO UCTABLE_2 (UTF8COL) VALUES (X'C3B1C3B2C3B3')
如果只知道 UCS-2 十六进制编码,还有另一种方法可以在 UTF-8 列中输入 Unicode 字符。可以先用 UCS-2 十六进制编码将字符存储在 UCS-2 列中,然后用带 SELECT 的 INSERT 语句填充 UTF-8 列。此时,DB2 自动执行从 UCS-2 到 UTF-8 的转换。 INSERT INTO UCTABLE_2 (UTF8COL) SELECT UCS2COL FROM UCTABLE_1
Java 编程语言也允许以 UCS-2 十六进制编码的形式输入字符。在 Java 中与 DB2 CLP INSERT 语句等效的代码如下:
与 DB2 CLP 版本相反,Java 版本独立于目标列的编码,这意味着无论对于 GRAPHIC 或 VARGRAPHIC 列(UCS-2 编码),还是 CHAR 或 VARCHAR 列(UTF-8 编码),INSERT 命令都可以执行。这是因为在将 UCS-2 十六进制编码发送到 Unicode 数据库(此时发生编码页转换)之前 Java 会解释它们。 在演示 Java 应用程序如何访问 Unicode 数据库之前,需要确保应用程序正确地显示数据。因此,设置客户机环境是很重要的。 在默认情况下,应用程序编码页源自编译和绑定应用程序时所在的操作系统的设置。例如,为了在 Windows 上显示中文字符,需要设置 Windows 地区和语言。步骤如下: 可以在 DOS 提示下输入 chcp 来检查活动的编码页。
客户机应用程序编码页由活动环境变量决定。可以用 DB2CODEPAGE 值覆盖应用程序编码页。如果客户机采用正确的地区设置和语言设置,那么应该不需要使用 DB2CODEPAGE 变量。如果 DB2CODEPAGE 注册表变量设置为不正确的值,那么可能会造成不可预期的结果和潜在的数据损失。如果应用程序编码页与 Unicode 数据库不同,那么数据库管理器会将字符串从应用程序编码页转换为数据库 Unicode 编码页。Java 在内部按照 UCS-2 格式存储字符串。关于 DB2 字符转换的细节,请参考 developerWorks 文章 理解 DB2 Universal Database 的字符转换。 希伯来语和阿拉伯语等语言的方向与一般语言不同,对于这些语言,还应该设置 DB2BIDI 环境变量。 在客户机-服务器体系结构中,当 Java 应用程序访问数据库时,需要 Java Database Connectivity™(JDBC)。JDBC 是一个应用程序编程接口(API),Java 应用程序使用它本地或远程访问关系数据库。 DB2 Universal JDBC Driver 包含 JDBC Type 2 连接性、JDBC Type 4 连接性以及 SQLJ 支持。当应用程序装载 DB2 Universal JDBC Driver 时,装载一个驱动程序实例来提供 Type 2 和 Type 4 实现。在应用程序中,可以使用这个驱动程序实例建立 Type 2 和 Type 4 连接。 在安装 DB2 UDB for Linux, UNIX, and Windows 时,就安装了 JDBC。Type 4 驱动程序的 db2jcc.jar 和 sqlj.zip 文件安装在 sqllib/java 目录中,这些文件应该添加到 CLASSPATH 中。Universal Type 2 Connectivity 需要的 db2jcct2.dll 将安装在 sqllib/bin 目录中。 在安装 DB2 UDB Version 8.2 时,还会安装最新的 IBM Java Development Kit(JDK)(如果还没有安装的话)。如果 DB2 UDB 安装是对以前 DB2 版本的更新,那么需要手动安装 JDK。IBM 提供了 Java Runtime Environment(JRE)的一个版本,其中包含所有字符转换代码。从 IBM JDK 1.4 开始,用于编码页转换的库存储在几个 JAR 文件中(比如 core.jar、graphics.jar、xml.jar 和 server.jar),而不是像其他 JDK 实现中那样存储在单个 rt.jar 文件中。在默认情况下,IBM JDK 安装在 sqllib/java 目录下。 如果考虑使用其他 JDK,那么可以将 JDK 安装在其他目录中,并在 PATH 和 CLASSPATH 变量中指定 JDK 目录。应该注意,所有平台的 Sun JDK V1.3.1 以及 Solaris 和 Linux 的 JRE V1.3.1 标准版支持大多数 IBM 编码。Windows 的 Sun JDK V1.3.1 有两个不同版本:US-only 和 International。基本编码集存储在 rt.jar 中,其中包括表 2 中的编码方案。 表 2. rt.jar 中的基本编码集字符
扩展编码集存储在 charsets.jar 中。如果考虑使用 US-only JDK 和扩展编码集,那么需要安装国际版或者将 charsets.jar 文件包含在 $JAVAHOME/JRE/LIB/ 目录中。对于 charset.jar 中支持的编码集,请在 Java 站点上检查 。 对于 JDK 1.3 和 JDK 1.3 以前的版本,字符转换器内置在 sun.io 中,比如 ByteToCharCp1250。java.util.String、java.io.InputStreamReader 和 java.io.OutputStreamWriter 在内部调用这些转换器。在 JDK 1.4 中,有几个新的公共类,用于将 16 位 Unicode(Java char)转换到其他编码页。这些类是:
使用 DB2 Universal JDBC Type 4 驱动程序的 Java 应用程序不需要在客户计算机上安装 DB2 客户机。如果使用 DB2 Universal JDBC Type 2 驱动程序,应用程序就需要 DB2 客户机。要使用 Universal JDBC Type 2 驱动程序,db2jcct2.dll(Windows)或 libdb2jcct2.so(UNIX)或 libdb2jcct2.sl(HP-UNIX)需要分别安装在 sqllib\bin 或 sqllib/lib 中。当客户机上的 Java 应用程序使用 universal JDBC 驱动程序访问 DB2 服务器上的 Unicode 数据库时,DB2 Universal JDBC Driver(Type 2 或 Type 4)采用 UCS-2 格式将数据发送到数据库服务器;因此,对于 Unicode 数据库,不需要编码页转换。使用 Java 内置的字符转换器对从数据库服务器发送到客户机的字符数据进行转换。DB2 Universal JDBC Driver 支持的转换受到底层 JRE 实现的限制。 在这个示例中,使用以下 CREATE DATABASE 和 CREATE TABLE 语句定义一个 Unicode 数据库:
对于以上定义,还可以使用以下命令从数据库 TEST2 的数据库配置中找到编码页信息:
数据库编码集、数据库编码页和区域值如下:
在这个示例中,我们演示如何让 Java 应用程序将中文(非 ASCII)字符输入到 Unicode 数据库中。为了显示和输入中文字符,将系统语言地区设置为 Chinese Simplified(GB2312,编码页 936)。细节见图 5。如果希望输入中文字符,还需要设置 Input Locales。可能需要插入 Windows 安装光盘并重新启动计算机。 以下 Java 程序将一个混合字符串(包含英语和中文字符)插入 TEST_TABLE 的 DESCRIPTION 列,并在屏幕上显示结果: 可以 下载 以上代码:UnicodeExample.java。应该注意,如果 Windows 环境没有设置为中文编码页,那么示例程序中就显示不出中文字符,而是显示一系列问号。 在执行这个程序时,结果如下: 让我们输入 chcp 1252,将活动编码页改为 1252,并再次运行这个程序。结果如下: 现在看不到中文字符了。这是因为活动编码页 1252 不包含非 ASCII 中文字符的编码点。因此,如果没有正确地设置客户机编码,就不能正确地显示。 现在,可以重新设置活动编码页 936 并在字符串末尾加 4 个中文字符。这会使字符串的长度增加 12 字节,然后重新编译并运行 Java 程序。您会遇到以下的 SQLCODE -443: 这是因为每个中文字符占用 3 字节。原来的字符串占用 48 字节。现在,修改后的字符串占用 60 字节,这超过了 DESCRIPTION 的定义。因此,一定要确保列定义的长度足够处理 Unicode 数据。 DB2 Sample 数据库是使用默认的 OS 编码页 1252 定义的。要想在 Sample 数据库中创建 Unicode 表,需要通过执行以下命令,将数据库配置 ALT_COLLATE 设置为 IDENTITY_16BIT:
数据库配置中的 ALT_COLLATE 必须更新。
然后可以像下面这样创建 Unicode 表:
以下程序仅仅读取非 Unicode 数据库中的 Unicode 表。
以上程序的结果是:
将以上代码修改为同时访问 Unicode 表和非 Unicode 表,如下所示:
正如前面提到的,会接收到以下错误,因为不能在同一个 SQL 语句中同时访问 Unicode 表和非 Unicode 表:
本文解释了 DB2 UDB for Linux, UNIX, and Windows 如何支持 Unicode。根据实践中遇到的问题,我们讨论了 DB2 UDB Unicode 支持的几个方面。利用我们提供的信息,您可以开始开发访问 DB2 UDB Unicode 数据库的国际化应用程序。
学习
获得产品和技术
讨论
|