Chinaunix首页 | 论坛 | 博客
  • 博客访问: 750426
  • 博文数量: 176
  • 博客积分: 2548
  • 博客等级: 少校
  • 技术积分: 1749
  • 用 户 组: 普通用户
  • 注册时间: 2008-11-29 16:36
个人简介

爱咋咋地

文章分类

全部博文(176)

文章存档

2024年(1)

2023年(17)

2022年(19)

2021年(3)

2020年(1)

2018年(1)

2017年(1)

2014年(1)

2013年(4)

2012年(11)

2011年(19)

2010年(22)

2009年(71)

2008年(5)

分类: LINUX

2012-03-15 10:17:23

被一个破问题折腾了2天后,于昨晚终于找出了元凶,然后遂有撞死的想法。

环境:Red Hat Enterprise Linux Server release 5.4 
Linux 2.6.18-164.11.1.el5 #1 SMP Wed Jan 6 13:26:04 EST 2010 x86_64 x86_64 x86_64 GNU/Linux
openssl-0.9.8e-12.el5
openssl-devel-0.9.8e-12.el5

epoll水平触发模型,non-blocking socket,没有用BIO

用openssl做实现ssl加密传输功能,证书,私钥及密码都初始化好了,就是在SSL_accept时报错
error:00000005:lib(0):func(0):DH lib errno:0
SSL_accept failed 返回值 return 0 SSL_get_error return 5(SSL_ERROR_SYSCALL),errno是0

SSL_read 有时也这样

考虑了很多情况:1.openssl的多线程问题(排除)2.创建线程时的初始化参数问题pthread_attr_t(排除)3.tcpdump/tethereal抓包分析发现密钥交换正常 4.还下载了openssl的源代码编译了debug版进行跟踪(代码太深,最后放弃了,还好放弃了,要不然现在还在断点中单步那)

我靠,这是什么问题啊,经过2天并多个兄弟一起排查,都没发现问题,最后被逼无奈先写了简化版的测试程序,测试通过。看样还是原来的网络框架有猫腻,上最小代码法(就是把无关的代码全部删了)测试通过。一点一点恢复,终于在一个文件中发现了问题,原来由于某些项没有设置导致网络框架调用了shutdown(fd, SHUT_RD), 你妹啊,把socket的读关了我还交互个屁啊。

总结教训如下:

1.以后再碰到openssl莫名其妙的报错看看是不是socket的RD或WR被关掉了。
2.不能太相信tcpdump/tethereal的抓包结果,关掉RD是不会发FIN的。
3.再碰到此类无头绪的问题,尽快写测试代码,死盯着问题代码是发现不了问题的。


阅读(9258) | 评论(0) | 转发(1) |
给主人留下些什么吧!~~