Informix几种数据去重的方法-sdccf-ChinaUnix博客

Fosdccf.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

sdccf

博客访问： 107586590
博文数量： 19283
博客积分： 9968
博客等级：上将
技术积分： 196062
用户组：普通用户
注册时间： 2007-02-07 14:28

文章分类

全部博文（19283）

香文化（0）
CU技术专题（2443）

Linux酷软（214）

tmp（0）

PostgreSQL（93）

Solaris（383）

AIX（173）

SCOUNIX（575）

DB2（1005）
涂鸦（9）
编程开发（1573）

Shell（386）

C/C++（1187）
数据库（6458）

MySQL（1750）

Sybase（465）

Oracle（3695）

Informix（548）
操作系统（8627）

HP-UX（0）

IBM AIX（2）

Sun Solaris（0）

BSD（1）

Linux（8597）

SCO UNIX（23）
未分配的博文（173）

文章存档

2011年（1）

2009年（125）

2008年（19094）

2007年（63）

我的朋友

相关博文

Informix几种数据去重的方法

分类： DB2/Informix

2008-04-03 20:33:01

作者：play123456 出处：Unix爱好者家园unix-cd.com

在数据处理中经常会遇到去除重复数据的需要，由于数据格式的不同每次总是需要进行不同的操作。结合平时的运用，总结了几种简单方法。

一.利用数据库

    数据量小的话可以用Access,大的话使用大型些的，如informix等。首先建立一个与源数据结构完全相同的表，根据去重的条件建立唯一索引。然后将数据通过导入工具导入该表，access将自动将插入不成功的数据过滤，对于按照索引重复的数据只能插入一条，轻易达到去重目的。此法适用于小数据量，不想写程序，一次性行为。对于大数据量的可以通过"大功率"的数据库系统采用类似的方法进行处理，如使用informix的dbload工具，忽略导入错误进行装入。

二.unix环境的shell命令

    先使用sort指令将文件中的数据按照要求的索引进行排序，然后使用uniq指令将重复数据去掉得到想要的结果。如有个文件a.txt中有重复行，需要去除重复行时执行如下指令：
    #sort a.txt > b.txt;
    #uniq b.txt > c.txt
    c.txt文件就是所需数据了.

三.编写程序

    使用数据结构丰富的脚本语言可能更为方便，比如python，利用其中的字典数据结构，将索引作为Key值其它数据项作为value将数据导入内存，遇到重复时忽略错误很快就可以完成。

阅读(619) | 评论(0) | 转发(0) |

上一篇：Informix的用户权限管理

下一篇：informix sql函数使用说明大全(附:例子)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6