将文件导入到数据库中的方法小结-HZdT7e4-ChinaUnix博客

HZdT7e4的ChinaUnix博客

首页　| 　博文目录　| 　关于我

HZdT7e4

博客访问： 2172753
博文数量： 1647
博客积分： 80000
博客等级：元帅
技术积分： 9980
用户组：普通用户
注册时间： 2008-10-13 15:15

文章分类

全部博文（1647）

未分配的博文（1647）

文章存档

2011年（1）

2008年（1646）

我的朋友

最近访客

推荐博文

将文件导入到数据库中的方法小结

分类：

2008-10-28 18:27:11

　　大型的数据库开发中常常遇到数据源是平面文件的情况，对于这样的数据源，无法使用数据库对其数据进行有效的管理　　本文介绍几种常见的数据导入的方法，希望能够给读者以启迪。另外，本文所涉及到的数据库均为ORACLE数据库，其实对于其他数据库而言，方法类似。
　　
　　一、 Sql*:Loader
　　
　　该方法是数据库下数据导入的最重要的方法之一，该工具由客户端提供，其基本工作原理是：首先要针对数据源文件制作一个控制文件，控制文件是用来解释如何对源文件进行解析，其中需要包含源文件的数据格式、目标数据库的字段等信息，一个典型的控制文件为如下形式：
　　
　　LOAD DATA
　　INFILE '/ora9i/fengjie/agent/data/ipaagentdetail200410.txt'
　　TRUNCATE
　　INTO TABLE fj_ipa_agentdetail
　　fields terminated ","
　　trailing nullcols
　　( AGENT_NO char,
　　AGENT_NAME char,
　　AGENT_ADDRESS char,
　　AGENT_LINKNUM char,
　　AGENT_LINKMAN char
　　)
　　
　　其中，INFILE '/ora9i/fengjie/agent/data/ipaagentdetail200410.txt'指明所要导入的源文件，其实源文件也可以直接通过命令行来输入获得，fj_ipa_agentdetail为目标表的名字，fields terminated ","是指源文件的各个字段是以逗号分隔，trailing nullcols表示遇到空字段依然写入到数据库表中，最后这５个字段是目标数据库表的字段结构。通过上面这个典型的控制文件的格式分析可知，控制文件需要与源文件的格式信息一致，否则导入数据会出现异常。
　　
　　除了控制以外，sql*loader的还需要数据文件，即源文件。根据格式的不同，源文件可以分为固定字段长度和有分隔符这两大类，这里将分别说明这两种情况：
　　
　　固定字段长度的文本文件
　　
　　就是每个字段拥有固定的字段长度，比如：
　　
　　602530005922 1012
　　602538023138 1012
　　602536920355 1012
　　602531777166 1012
　　602533626494 1012
　　602535700601 1012
　　
　　有分隔符的文本文件
　　
　　就是每个字段都有相同的分隔符分隔，比如：
　　
　　1001,上海长途电信综合开发公司,南京东路34号140室
　　1002,上海桦奇通讯科技有限公司,武宁路19号1902室
　　1003,上海邦正科技发展有限公司,南京东路61号903室
　　
　　对于上述两种文件格式sql*loader均可以做处理，下面就前面那个固定长度的文本来举例说明：
　　
　　由于该文本只有两个字段，一个为设备号，一个是区局编号，两者的长度分别为２０和５，那么可以编制控制文件如下：
　　
　　LOAD DATA
　　INFILE '/ora9i/fengjie/agent/data/ipaagent200410.txt'
　　TRUNCATE
　　INTO TABLE fj_ipa_agent
　　( DEVNO POSITION(1:20) CHAR,
　　BRANCH_NO POSITION(21:25) CHAR
　　)
　　
　　其中，'/ora9i/fengjie/agent/data/ipaagent200410.txt'为该文件的完全路径，POSITION(M:N)表示该字段是从位置M到位置N。
　　
　　对于有分隔符的数据文件，前面已经有一个例子，这里就不再赘述了。总之，使用Sql*Loader能够轻松将数据文件导入到数据库中，这种方法也是最常用的方法。
　　
　　二、使用专业的数据抽取工具
　　
　　目前在数据仓库领域中，数据抽取与装载（ETL）是一重要的技术，这一技术对于一些大的数据文件或者文件数量较多尤其适合。这里简单介绍目前一款主流的数据抽取工具――Informatica。
　　
　　该工具主要采用图形界面进行编程，其主要工作流程是：首先将源数据文件的结构（格式）导入为Informatica里，然后根据业务规则对该结构进行一定的转换(transformation)，最终导入到目标表中。
　　
　　以上过程仅仅只是做了一个从源到目标的映射，数据的实际抽取与装载需要在工作流（workflow）里进行。
　　
　　使用专业的数据抽取工具，可以结合业务逻辑对多个源数据进行join,union,insect等操作，适合于大型数据库和数据仓库。
　　
　　三、使用Access工具导入
　　
　　可以直接在Access里选择‘打开‘文本文件，这样按照向导来导入一个文本文件到Access数据库中，然后使用编程的方法将其导入到最终的目标数据库中。
　　
　　这种方法虽然烦琐，但是其对系统的软件配置要求相对较低，所以也是有一定的使用范围。
　　
　　四、小结
　　
　　总之，平面文件转化为数据库格式有利于数据的处理，显然，数据库强大的数据处理能力比直接进行文件I/O效率高出很多，希望本文能够对该领域做一个抛砖引玉的作用。

【责编:admin】

--------------------next---------------------

阅读(312) | 评论(0) | 转发(0) |

上一篇：Oracle非法数据库对象引起的错误及解决

下一篇：oracle系统紧急故障处理

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6