频道栏目
首页 > 资讯 > 浏览器 > 正文

记一次TcpListenOverflows报警解决过程

15-06-29        来源:[db:作者]  
收藏   我要投稿

问题描述

2015-06-25,晚上21:33收到报警,截图如下:


此时,登陆服务器,用curl检查,发现服务报500错误,不能正常提供服务。

问题处理

tail各种日志,jstat看GC,不能很快定位问题,于是dump内存和线程stack后重启应用。

jps -v,找出Process ID

jstack -l PID > 22-31.log

jmap -dump:format=b,file=22-29.bin PID

TcpListenOverflows

应用处理网络请求的能力,由两个因素决定:

1、应用的OPS容量(本例中是 就是我们的jetty应用:controller和thrift的处理能力)

2、Socket等待队列的长度(这个是os级别的,cat /proc/sys/net/core/somaxconn 可以查看,默认是128,可以调优成了4192,有的公司会搞成32768)

当这两个容量都满了的时候,应用就不能正常提供服务了,TcpListenOverflows就开始计数,zabbix监控设定了>5发警报,于是就收到报警短信和邮件了。

这个场景下,如果我们到服务器上看看 listen情况,watch "netstat -s | grep listen",会看到“xxx times the listen queue of a socket overflowed”,并且这个xxx在不断增加,这个xxx就是我们没有对网络请求正常处理的次数。

参考文章:

关于tcp listen queue的一点事

如何判断是否丢掉用户请求

linux里的backlog详解

linux下socket函数之listen的参数backlog

TCP SNMP counters

LINUX下解决netstat查看TIME_WAIT状态过多问题

理解了以上,我们已经可以大致认为,问题的根源,就是应用处理能力不足。以下的问题分析步骤,可以继续对此进行佐证。

问题分析

线程栈


首先看线程栈,大约12000多个线程,大量线程被TIME_WAIT/WAIT在不同的地址,偶有多个线程被同一个地址WAIT的情况,但是都找不到这个地址运行的是什么程序,貌似这个线程栈意义不大。

关于这点,还请高手进一步帮助分析,能否可以通过这个文件直接定位问题。

Eclipse Memory Analyzer


MAT分析工具,分析JVM内存dump文件,下载地址: http://www.eclipse.org/mat/downloads.php 。

通过分析,我们可以看到,内存中最多的类,是socket相关的,截图如下:


Shallow heap & Retained heap

Zabbix监控


问题解决

1、申请两台新虚拟机,挂上负载。

2、Jetty调优,增大线程数,maxThreads设置为500。

3、调用外部接口Timeout时间,统一调整为3秒,3秒前端就会超时,继续让用户走别的,所以我们的后端进程继续处理已经毫无意义。

相关TAG标签
上一篇:查询出部门名称、部门的员工数、部门的平均工资、部门的最低收入雇员姓名和最高收入雇员的姓名
下一篇:MongoDB与MySQL的操作对比表及区别介绍
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站