查看完整版本: 数据复制中的字符集转换分析

admin 发表于 2014-10-13 15:20:48

数据复制中的字符集转换分析

针对 IBM WebSphere Information Integrator 的 SQL 复制和 Q 复制,本文通过描述字符集转换的各种机制与原理,介绍了在实际的多语言商业环境下的数据复制所应注意的各种配置组合与技巧。同时为客户提供了最佳的代码页配置方案,使得客户能够在最短的时间中了解数据复制过程中的字符集转换机制并及时地将其运用到商业环境中从而达到在数据复制过程中对多语言环境的最佳透明访问。  简介
  当前,随着企业信息化水平的提高,企业计算环境变得日益复杂,数据量更是迅猛增加。不论是数据仓库的更新,分布式系统的同步,还是运行环境的备份,都迫切需要快捷灵活的数据复制功能。IBM WebSphere Information Integrator 的 SQL 复制和 Q 复制为企业从容面对商业环境中的各种挑战提供了强有力的支持。
  SQL 复制又称为“DB2 复制”,它基于日志或者触发器来捕获变更,可以在多个混合关系数据源之间互相复制数据,能最大限度地提高复制的灵活性。Q 复制是一种新的复制架构,使用 Websphere MQ 消息队列在源数据库和目标数据库之间传递事务数据的更新情况,是一种低延迟,高吞吐量的解决方案。
  同时,面临经济全球化的趋势,数据复制系统提供了多语言支持以适应市场需求,尤其是加强了对双字节字符集(DBCS, Double Byte Character Set)的支持。如何在需要转换字符集的情况下确保数据复制的准确性已成为数据复制领域不容忽视的一环。
  图 1 是对数据复制应用的商业模拟。
图 1. 数据复制应用商业模拟
http://searchdatabase.techtarget.com.cn/imagelist/2007/185/649jm7b3hk3os.gif
  图 1 所展现的数据复制场景中,我们实现了业务数据在美国总部与位于亚洲的分支机构(例如中国,日本)之间进型准确高效的传递。在整个过程中,只要通过恰当的参数配置,我们便可以避免数据复制中由于字符集转换带来的异常。
  字符集转换通常情况下被称为代码页(CODEPAGE)转换。通过以上描述可知,代码页转换已经成为影响数据复制系统正确性与高效性的重要因素。
  需要指出的是,若要理解与掌握数据复制中代码页转换的具体过程及配置方法,必需首先具备 Unicode,双字节字符集(DBCS, Double Byte Character Set)等相关知识。

      代码页转换过程中的相关参数
  在 WebSphere II(SQL/Q)复制系统中,对数据的代码页转换需要进行多方面的考虑,通常代码页的转换涉及:源数据库的代码页设置,目标数据库的代码页设置,capture 程序(capture program)与 apply 程序(apply program)运行时所在 DB2 实例级别的代码页设置,以及操作系统当前 Locale 的选取。同时,当引入联邦(Federated)数据库之后,代码页转换的情况将变得更加复杂,因为这时我们必须考虑包装器(Wrapper)机制的引入,及 DB2 数据源与非 DB2 数据源通信时所带来的代码页转换。
  在对代码页转换过程进行分析时,我们需要考虑 3 个不同层次的代码页设置,这一点如图 2 所示:
图 2. 代码页设置的三个层次
http://searchdatabase.techtarget.com.cn/imagelist/2007/185/k40g9302j581.gif
  操作系统 Locale:系统级别的代码页设置,决定应用程序的默认代码页;
  如果您希望将 OS Locale 设置为中文,可使用以下方法:
   
[*]  UNIX:你可以通过 export LANG=”zh_CN” 命令修改当前的 Locale 到中文;   
[*]  Windows:在“开始->设置->控制面板->区域设置”中进行如图 3 所示的选择;
图 3. 修改当前的 Locale 到中文
http://searchdatabase.techtarget.com.cn/imagelist/2007/185/avl86qd79i8t.gif
页: [1]
查看完整版本: 数据复制中的字符集转换分析