服务器突然卡死、SSH 连不上?应急排查思路(运维必备)
服务器毫无征兆卡死、无响应、SSH 连不上是我最近在郑州易方科贸管理服务器中最让人头皮发麻的故障之一。 网站打不开、业务中断、后台登不进去很多人第一反应是 “重启”但重启只能临时解决还会丢现场、丢日志根本查不到根因。这篇文章给你一套通用、可落地、从应急到定位的完整排查思路不管是云服务器还是物理机新手也能一步步操作。一、先搞清楚服务器到底 “死” 在哪一步SSH 连不上不代表机器真的挂了先快速判断故障类型完全无响应ping 不通、telnet 22 端口不通、控制台黑屏能 ping 通但 SSH 连不上网络通服务或系统卡住能进控制台但操作极卡系统负载高、IO 卡死、内存爆了刚连上就断OOM 杀进程、端口被占、防火墙拦截不同现象排查方向完全不同。二、第一步最紧急 —— 先恢复业务能救就救1. 优先尝试 VNC / 控制台云服务器阿里云、腾讯云、华为云等都有网页终端 / VNC 控制台这是最后救命入口。能进去说明机器没死只是网络或 SSH 异常进不去、黑屏、卡死大概率系统内核卡死或硬件问题2. 简单连通性测试在本地执行bash运行ping 服务器IP telnet 服务器IP 22ping 不通 → 网络 / 防火墙 / 机器宕机ping 通、22 端口不通 → SSH 服务挂了或被拦截都通但连不上 → 认证、负载、文件系统问题3. 万不得已再重启重启会丢失现场建议只在两种情况用业务中断影响极大必须立刻恢复完全无任何响应控制台也进不去重启前如果能截图控制台、记录最后画面对后续排查极有帮助。三、第二步能进控制台怎么排查卡死原因如果你能通过 VNC / 网页终端进入恭喜你问题基本能定位。1. 先看系统负载是不是 CPU 跑满执行bash运行top重点看load average 远大于 CPU 核心数 → 严重拥堵% CPU 接近 100% → 某个进程疯狂占用常见元凶MySQL、Java、Python、Nginx、爬虫、挖矿程序处理记录 PIDkill -9 PID干掉异常进程观察是否恢复 SSH 连接2. 内存爆了、OOM 机制杀服务bash运行free -hused 占满、swap 也爆满 → 内存溢出 系统会主动杀死 SSH、Nginx、Java 等进程导致无法登录。查 OOM 日志bash运行dmesg | grep -i out of memory dmesg | grep -i oom看到哪个进程被 kill基本就是元凶。3. 磁盘 IO 卡死最容易被忽略很多时候 CPU、内存都正常但系统就是动不了90% 是磁盘 IO 被打满。bash运行iostat -x 1重点看%util接近 100%await 特别高再看谁在疯狂读写bash运行iotop常见原因日志疯狂刷写MySQL 大量慢查询、刷脏页磁盘满、inode 耗尽机械盘扛不住高并发4. 磁盘满了系统直接卡死bash运行df -h df -i根目录 / 使用率 100% → 无法创建临时文件SSH 无法登录inode 满了小文件太多→ 同样会卡死清理日志、备份、缓存、垃圾文件。5. 系统文件异常、只读挂载如果控制台提示plaintextRead-only file system说明磁盘异常系统自动保护改为只读模式任何写入都会失败SSH 也无法正常建立会话。四、第三步能 ping 通但 SSH 死活连不上如果网络正常但 SSH 登不进排查这几项1. SSH 服务挂了进控制台执行bash运行systemctl status sshd异常则重启bash运行systemctl restart sshd2. 防火墙 / 安全组拦截 22 端口云服务器优先检查安全组是否放通 22内网防火墙 firewalld、iptables 是否拦截临时关闭测试bash运行systemctl stop firewalld3. hosts.deny/hosts.allow 黑名单系统级黑名单会直接拉黑 IPplaintext/etc/hosts.deny /etc/hosts.allow查看是否被误封。4. SSH 最大连接数满了bash运行ss -ntpl | grep sshd连接数打满新连接进不来需要调整配置或重启服务。5. 密钥 / 权限异常SSH 对权限极其敏感.ssh 目录权限不对authorized_keys 权限异常 都会直接拒绝登录且不提示原因。五、第四步完全 ping 不通、控制台也黑了这种情况最严重基本只有几种可能服务器真宕机内核崩溃、硬件故障、电源 / 网卡异常。被流量攻击打挂DDOS、CC 攻击导致网卡 / 系统资源耗尽。内核死锁、panic控制台会打印错误信息可截图提工单给厂商。机房网络中断交换机、上联线路、运营商故障。处理方式提交云厂商工单查监控与系统日志物理机检查硬件、网卡、电源查看流量监控是否被攻击六、事后必做避免下次再突然卡死配置监控CPU、内存、磁盘、IO、TCP 连接开启日志采集dmesg、syslog、应用日志限制日志大小配置日志轮转关键服务设置开机自启、异常自动重启定期清理磁盘避免 100% 占满重要业务做高可用避免单点故障