2018年(30)
分类: 数据库开发技术
2018-09-06 20:42:18
我们知道分布式锁的特性是排他、避免死锁、高可用。分布式锁的实现可以通过数据库的乐观锁(通过版本号)或者悲观锁(通过for update)、Redis的setnx()命令、Zookeeper(在某个持久节点添加临时有序节点,判断当前节点是否是序列中最小的节点,如果不是则监听比当前节点还要小的节点。如果是,获取锁成功。当被监听的节点释放了锁(也就是被删除),会通知当前节点。然后当前节点再尝试获取锁,如此反复)
本篇文章,主要讲如何用Redis的形式实现分布式锁。后续文章会讲解热点KEY读取,缓存穿透和缓存雪崩的场景和解决方案、缓存更新策略等等知识点,理论知识点较多。
我的redis配置如下
为了区分不同模块的key,我抽象出了一个KeyPrefix接口和BasePrefix类。
下面进入正文。因为分布式系统之间是不同进程的,单机版的锁无法满足要求。所以我们可以借助中间件Redis的setnx()命令实现分布式锁。setnx()命令只会对不存在的key设值,返回1代表获取锁成功。对存在的key设值,会返回0代表获取锁失败。这里的value是System.currentTimeMillis() (获取锁的时间)+锁持有的时间。我这里设置锁持有的时间是200ms,实际业务执行的时间远比这200ms要多的多,持有锁的客户端应该检查锁是否过期,保证锁在释放之前不会过期。因为客户端故障的情况可能是很复杂的。比如现在有A,B俩个客户端。A客户端获取了锁,执行业务中做了骚操作导致阻塞了很久,时间应该远远超过200ms,当A客户端从阻塞状态下恢复继续执行业务代码时,A客户端持有的锁由于过期已经被其他客户端占有。这时候A客户端执行释放锁的操作,那么有可能释放掉其他客户端的锁。
我这里设置的客户端等待锁的时间是200ms。这里通过轮询的方式去让客户端获取锁。如果客户端在200ms之内没有锁的话,直接返回false。实际场景要设置合适的客户端等待锁的时间,避免消耗CPU资源。
如果获取锁的逻辑只有这三行代码的话,会造成死循环,明显不符合分布式锁的特性。
所以,我们要加上锁过期,然后获取锁的策略。通过realKey获取当前的currentValue。currentValue也就是获取锁的时间 + 锁持有的时间。 如果currentValue不等于null 且 currentValue 小于当前时间,说明锁已经过期。这时候如果突然来了C,D两个客户端获取锁的请求,不就让C,D两个客户端都获取锁了吗。如果防止这种现象发生,我们采用getSet()命令来解决。getSet(key,value)的命令会返回key对应的value,然后再把key原来的值更新为value。也就是说getSet()返回的是已过期的时间戳。如果这个已过期的时间戳等于currentValue,说明获取锁成功。
假设客户端A一开始持有锁,保存在redis中的value(时间戳)等于T1。 这时候客户端A的锁已经过期,那么C,D客户端就可以开始争抢锁了。currentValue是T1,C客户端的value是T2,D客户端的value是T3。首先C客户端进入到String oldValue = jedis.getSet(realKey, value);这行代码,获得的oldValue是T1,同时也会把realKey对应的value更新为T2。再执行后续的代码,oldValue等于currentValue,那么客户端C获取锁成功。接着D客户端也执行到了String oldValue = jedis.getSet(realKey, value);这行代码,获取的oldValue是T2,同时也会把realKey对应的value更新为T3。由于oldValue不等于currentValue,那么客户端D获取锁失败。
我们讲解了获取的逻辑,接着讲讲释放锁的逻辑。我们在这里加上!StringUtils.isEmpty(currentValue) && value.equals(currentValue)判断是为了防止释放了不属于当前客户端的锁。还是举个例子,如果没有这个逻辑,A客户端调用unlock()方法之前,锁突然就过期了。这时候B客户端发现锁过期了,立马获取了锁。然后A客户端接着调用unlock()方法,却释放了原本属于B客户端的锁。
编码RedisController,模拟商品秒杀操作。测试分布式锁是否可行。(强调:这里只是举一个例子,更直观的判断分布式锁可行,不适合实际场景!!!!!实际上抢购,是直接将库存放入到redis,是否结束标记放入到内存中,通过内存标记和redis中的decr()预减库存,然后将秒杀消息入队到消息队列中,最后消费消息并落地到DB中)
对进行压测,我使用的压测工具是ab测试工具。这里用10000个并发用户,20000个请求来进行压测。
压测结果如下:
我们再来看看是否有超卖现象,貌似还是正常。
我打开RedisDesktopManager查看db0的key信息时,发现还有一个key没有删除掉。说明我们写的unlock()方法在1w并发用户,2w请求下还是存在问题。
仔细推敲自己之前写的代码发现(还是拿上面的例子说事),客户端D虽然获取锁失败,但是之前进行了String oldValue = jedis.getSet(realKey, value);操作,还是成功的更新了realKey对应的value。我们进行unlock()操作时,释放客户端的锁是根据value来标识当前客户端的。一开始客户端C的value是T2,由于客户端D的getSet()操作,覆盖掉了客户端C的value,让其更新成T3。由于value.equals(currentValue)条件不成立,所以不会执行到jedis.del(realKey)
其实lock()方法也经不起推敲: 1.分布式各个系统时间不一致,如果要这样做,只能进行时间同步。 2.当某个客户端锁过期时,多个客户端开始争抢锁。虽然最后只有一个客户端能成功锁,但是获取锁失败的客户端能覆盖获取锁成功客户端的过期时间。 3.当客户端的锁过期时间被覆盖,会造成锁不具有标识性,会造成客户端没有释放锁。
所以我们要重写lock与unlock()的逻辑,看到网上已经有很多的解决方案。(不过也有很多错误案例)
我们可以通过redis的set(key,value,NX,EX,timeout)合并普通的set()和expire()操作,使其具有原子性。
通过set(key,value,NX,EX,timeout)方法,我们就可以轻松实现分布式锁。值得注意的是这里的value作为客户端锁的唯一标识,不能重复。
我们可以使用lua脚本合并get()和del()操作,使其具有原子性。一切大功告成。
刚才看了评论,看到了各位大佬提出的一系列问题。我做出以下解释:
秒杀操作,我在这里只是举一个例子,更直观的判断分布式锁可行,不适合实际场景!!!!!实际上抢购,是将商品库存放入到redis、将是否结束标记Flag放入到内存中,通过内存标记和redis中的decr()预减库存,然后将秒杀消息入队到消息队列中,最后消费消息并落地到DB中。
2.请耐心读完本篇文章。第一个案例代码是错误的,我后续讲解了如何发现和分析错误案例代码的思路。 在此基础下,推导出正确的代码。
3.通过评论,我看到有一篇文章作者的思路是这样的: 获取锁之后,通过标志位和开启新线程的方式轮询去刷新当前客户端持有锁的时间,以保证在释放锁之前锁不会过期,然后锁释放后,将标志位置为false,线程停止循环。但是这样有一个问题:假如执行了lock()操作之后,客户端由于一些原因阻塞了,那么unlock()方法一直得不到执行,那么标志位一直为true,开启刷新过期时间的线程一直死循环,会造成资源的严重浪费。而且线程一直增加当前客户端持有锁的时间,会造成其他客户端一直拿不到锁,而且造成死锁。
喜欢的点点关注,点点赞。