如何去除数据表中的重复数据-benxiong-ChinaUnix博客

benxiongbenxiong.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

benxiong

博客访问： 1755944
博文数量： 163
博客积分： 10591
博客等级：上将
技术积分： 1980
用户组：普通用户
注册时间： 2006-08-08 18:17

文章分类

全部博文（163）

LOG（1）
English（0）
Economy（1）
Monitor（12）

Nagios（9）
Unix（9）

AIX（4）

HP-UX（5）
Middleware（3）

Weblogic（3）
linux kernel（1）
Cloud（9）

Nimbus（8）

IaaS（0）
Virtualization（5）

Xen（5）
Program（33）

VBS（1）

批处理（3）

Perl（2）

Shell（12）

Linux C/C++（15）

HTML（0）
Others（8）

Android（1）

Bank（1）

phone（4）
Database（33）

Oracle PL/SQL（0）

Oracle常见问题（10）

Oracle安装卸载（3）

Oracle性能优化（3）

Oracle（10）

MySQL（7）
Equipment（7）

Tivoli Storage M（1）

Storage（6）

Printer（0）
Windows（1）
linux operation（18）
Network（10）

Voice（1）

Router（5）

Wireless（0）

Switch（2）
linux server（12）

DNS（1）

LVS（4）

Torque（1）

svn-cvs（1）

Cluster（2）

HTTP（2）

SAMBA（0）

MediaWiki（0）

DHCP（0）

LDAP（0）

NIS（0）
未分配的博文（0）

文章存档

2018年（1）

2012年（1）

2011年（47）

2010年（58）

2009年（21）

2008年（35）

我的朋友

相关博文

如何去除数据表中的重复数据

分类： Mysql/postgreSQL

2010-04-07 16:08:13

通常情况下，一个我们在做一个产品的时候，一开始可能由于设计考虑不周或者程序写的不够严谨，某个字段上的值产生重复了，但是又必须去掉，这个时候就稍微麻烦了一点，直接加一个 UNIQUE KEY 肯定是不行了，因为会报错。
现在，我们来采用一种变通的办法，不过可能会丢失一些数据 :)

在这里，我们设定一个表，其结构如下：

mysql> desc `user`;
+-------+------------------+------+-----+---------+----------------+
| Field | Type             | Null | Key | Default | Extra          |
+-------+------------------+------+-----+---------+----------------+
| id    | int(10) unsigned | NO   | PRI | NULL    | auto_increment |
| name  | char(10)         | NO   |     |         |                |
| extra | char(10)         | NO   |     |         |                |
+-------+------------------+------+-----+---------+----------------+

原来表中的数据假定有以下几条：

mysql> SELECT * FROM `user`;
+----+-------+--------+
| id | name  | extra  |
+----+-------+--------+
|  1 | user1 | user1  |
|  2 | user2 | user2  |
|  3 | user3 | user3  |
|  4 | user4 | user4  |
|  5 | user5 | user5  |
|  6 | user3 | user6  |
|  7 | user6 | user7  |
|  8 | user2 | user8  |
|  9 | USER2 | user9  |
| 10 | USER6 | user10 |
+----+-------+--------+

1、将原来的数据导出

mysql>SELECT * INTO OUTFILE '/tmp/user.txt' FROM `user`;

2、清空数据表

mysql>TRUNCATE TABLE `user`;

3、创建唯一索引，并且修改 `name` 字段的类型为 BINARY CHAR 区分大小写

mysql> ALTER TABLE `user` MODIFY `name` CHAR(10) BINARY NOT NULL DEFAULT '';

mysql> ALTER TABLE `user` ADD UNIQUE KEY ( `name` );

现在来看看新的表结构：

mysql> desc user;
+-------+------------------+------+-----+---------+----------------+
| Field | Type             | Null | Key | Default | Extra          |
+-------+------------------+------+-----+---------+----------------+
| id    | int(10) unsigned | NO   | PRI | NULL    | auto_increment |
| name  | char(10)         | NO   | UNI |         |                |
| extra | char(10)         | NO   |     |         |                |
+-------+------------------+------+-----+---------+----------------+

4、把数据导回去，在这里，有两种选择：新的重复记录替换旧的记录，只保留最新的记录 或者是 新的记录略过，只保留最旧的记录

mysql> LOAD DATA INFILE '/tmp/user.txt' REPLACE INTO TABLE `user`;
Query OK, 10 rows affected (0.00 sec)
Records: 8  Deleted: 2  Skipped: 0  Warnings: 0

mysql> SELECT * FROM USER;
+----+-------+--------+
| id | name  | extra  |
+----+-------+--------+
|  1 | user1 | user1  |
|  8 | user2 | user8  |
|  6 | user3 | user6  |
|  4 | user4 | user4  |
|  5 | user5 | user5  |
|  7 | user6 | user7  |
|  9 | USER2 | user9  |
| 10 | USER6 | user10 |
+----+-------+--------+

上面是采用 REPLACE 的方式，可以看到，导入过程中删掉了两条数据，结果验证确实是 新的重复记录替换旧的记录，只保留最新的记录。
现在，来看看用 IGNORE 的方式：

mysql> LOAD DATA INFILE '/tmp/user.txt' IGNORE INTO TABLE `user`;
Query OK, 6 rows affected (0.01 sec)
Records: 8  Deleted: 0  Skipped: 2  Warnings: 0

mysql> SELECT * FROM USER;
+----+-------+--------+
| id | name  | extra  |
+----+-------+--------+
|  1 | user1 | user1  |
|  2 | user2 | user2  |
|  3 | user3 | user3  |
|  4 | user4 | user4  |
|  5 | user5 | user5  |
|  7 | user6 | user7  |
|  9 | USER2 | user9  |
| 10 | USER6 | user10 |
+----+-------+--------+

看到了吧，确实是 新的记录略过，只保留最旧的记录。

阅读(1054) | 评论(0) | 转发(0) |

上一篇：如何修改mysql数据文件存储位置

下一篇：lsof命令的用法

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6