在MySQL字段中使用逗号分隔符-yaofang123-ChinaUnix博客

读书使人明智！yaofang123.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yaofang123

博客访问： 1443413
博文数量： 264
博客积分： 5810
博客等级：大校
技术积分： 3528
用户组：普通用户
注册时间： 2011-03-13 17:15

文章分类

全部博文（264）

我的书单（1）
非技术（24）

新东西（0）

自我学习（11）

产品经理（1）

准爸爸指南（1）

生活篇（3）

时间管理（3）

职业规划（4）

其他（1）
android（0）
groovy（1）
Ruby（0）

Ruby心得（0）
Lua（0）

Lua高级（0）

Lua基础（0）
协议相关（1）
自研课程（1）

研5：安全（1）

研4：数据库存储（0）

研3：协议与网络（0）

研2：系统内核（0）

研1：算法与程序（0）
软件配置（7）

haxproxy（0）

IIS（0）

resin（1）

apache（3）

nginx（3）
IDE相关（6）
WEB前端（20）

CSS（4）

ExtJS（0）

JS技术（16）
虚拟化研究（1）
技术理论（13）

编程语言（2）

NoSQL（3）

key-value（2）

资料集（2）

分布式（3）
网络相关（1）
存储相关（2）
系统架构（17）

我的架构（2）

消息队列（2）

技术架构（3）

运维开发（2）

运维架构（2）

WEB架构（6）
开源软件（17）

squid（0）

SVN（13）

服务器运维（2）

puppet应用（0）

func应用（2）
php开发（7）

框架（5）

php高级应用（0）

php基础（2）
Mysql管理（7）

Mysql基础（3）

优化（3）

系统管理（0）

DBA相关（1）
Java开发（2）
Jsp开发（2）

ibatis（0）

spring（0）

maven（0）
python（62）

twisted框架（0）

python源码笔记（0）

Django精（15）

读书笔记（2）

python模块（3）

python前沿（2）

python源码分享（9）

python应用（14）

python基础（17）
C/C++（0）

C算法（0）

C基础开发（0）
linux相关（19）

rpm及yum（0）

linux命令（5）

酷shell（4）

Bind技术（1）

linux开发（0）

linux管理（9）
未分配的博文（53）

文章存档

2011年（264）

我的朋友

相关性检索

很多开发者还在使用古老的LIKE方法来实现相关性检索，比如上面那个数据库结构中，content表中的两条记录都有2这个tag，那么怎样在我取出记录1时，把与它tag相关的记录也显示出来呢。其实这也是CMS需要面对的一个基本问题，也就是相关内容的查询。

如果你是一个菜鸟，你可能只会想到LIKE方法，比如先把记录1取出来，然后再把tags字段按逗号分割，最后做一个循环用LIKE检索content表中所有tags字段中包含2的记录，类似这样

SELECT * FROM content WHERE tag LIKE '%2%' AND id <> 1

但这种方法实在是太慢了，查询次数多不说，LIKE查询本来就是一个比较慢的方法。而且你还要处理前后逗号的问题，总之麻烦是一大堆。

所以让我们静下心来翻翻mysql手册，看看有没有什么惊喜。这个时候，一个名为FIND_IN_SET的函数，会闪着金光映入你的眼帘。让我们看看这个函数的定义

FIND_IN_SET(str,strlist)
Returns a value in the range of 1 to N if the string str is in the string list strlist consisting of N substrings. A string list is a string composed of substrings separated by “,” characters. If the first argument is a constant string and the second is a column of type SET, the FIND_IN_SET() function is optimized to use bit arithmetic. Returns 0 if str is not in strlist or if strlist is the empty string. Returns NULL if either argument is NULL. This function does not work properly if the first argument contains a comma (“,”) character.

哦，PERFECT! 简单说来就是寻找一个字符串是否在另一个以逗号分割的字符串中存在的函数，这简直是为我们量身定做的。那么我们的sql就变成

SELECT * FROM content WHERE FIND_IN_SET('2', tags) AND id <> 1

在翻这些函数的过程中，你应该已经深深地体会到mysql的设计者对以逗号分割存储字段方法的肯定，因为有很多方法就是设计用来处理这种问题的。

这样看起来好多了，一切似乎完美了，是这样吗？其实还没有，如果你的tag比较多，你需要创建多个sql语句，而且有的记录关联的tag比较多，有的比较少，怎么能按照相关性进行排列呢。

这个时候，你可以关注mysql的全文检索功能。这个词你肯定看见过无数回了，但是这么使用的肯定很少，让我们直接看语句吧

SELECT * FROM content WHERE MATCH(tags) AGAINST('1,2') AND id <> 1

这个语句的优势是显而易见的，你不需要对tags字段做再次分割。那么这种查询的原理是什么呢，稍微了解下MATCH AGAINST的用法就知道，全文检索的默认分隔符是标点符号和stopwords，其中前者正是我们需要的特性。全文检索按照逗号将MATCH和AGAINST里的字符串做分割，然后将它们匹配。

需要注意的是上面sql仅仅是个例子，如果你直接这么执行，是无法得到任何结果的。原因在以下

你需要对tags字段建立fulltext索引（如果仅仅是测试，可以不做，建索引只是提高性能，对结果没有影响）
每个被标点符号分割的word长度必须在3个字符以上，这才是关键，我们的tag id太短了，会被自动忽略掉，这个时候你可以考虑让id从一个比较大值开始自增，比如1000，这样它就够长了。
你撞到了stopwords，比如你的tags字段是这样的'hello,nobody'，nobody是mysql的一个默认的stop words，它会被自动忽略。stop words是英文中的一些无意义词，搜索的时候不需要它们，类似汉语中的助词等等。但在我们的使用中显然不是用来做搜索的，因此可以在my.cnf文件里，加上ft_stopword_file=''来禁用它

随着WEB技术的发展，相关搜索走SQL的情况越来越少，很多时候只需要用搜索引擎就可以了。但本文的目的并不只是讨论这种方法，而是体现实现这一结果的过程。

阅读(1754) | 评论(0) | 转发(1) |

上一篇：Python if/else in lambda

下一篇：代码是重构出来的

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6