1. 概述与故障场景
故障常见表现:业务访问异常、页面403/502或大量误拦截等。
影响范围判断:单域名、子域或全站被影响需区分。
目标:在15-60分钟内判断是WAF规则、回源链路还是DDOS。
涉及组件:域名解析(DNS)、CDN/加速、阿里
云WAF、ECS/VPS主机。
关键指标:请求率(RPS)、错误率、命中规则ID与回源响应码。
注意记录:截取时间、客户端IP样例、请求URL与时间戳,便于回溯。
2. 第一步:确认影响范围
使用浏览器与curl分别在本地和异地检测,示例:curl -I -v https://www.example.com。
检查是否为单个域名,还是所有通过WAF的域名都异常。
使用dig/nslookup确认域名是否仍指向阿里云WAF或CDN:dig +short www.example.com。
通过阿里云监控或SLB查看是否有异常流量峰值或带宽突增。
若仅个别IP可访问,列出示例IP以便与安全组、白名单比对。
3. 第二步:查看阿里云WAF控制台与告警
登录WAF控制台查看“防护日志”“规则触发”与“策略变更记录”。
注意查看最近30分钟内命中量大的规则ID与动作(拦截/告警/伪装)。
若有告警邮件或短信,记录告警阈值与时间段。
检查WAF是否已开启“自动学习/自动拦截”策略,可能导致误杀。
若WAF显示后端回源异常,记录回源响应码和RTT。
4. 第三步:核对后端主机与VPS连通
在ECS/VPS上使用tcpdump或ngrep抓包,示例:tcpdump -i eth0 host 1.2.3.4 and port 80。
使用telnet或curl直接回源测试:curl -v http://127.0.0.1:8080/health。
检查主机防火墙与安全组是否误拦WAF回源IP段(阿里云回源IP列表需对照)。
查看Nginx/Apache访问日志与错误日志,确认是否收到了请求与返回码。
若回源超时,检查后端服务进程、负载、CPU/内存与最大连接数(举例:nginx worker_connections 1024)。
5. 第四步:分析访问日志与规则匹配(含数据演示)
导出WAF访问日志,统计某一时间窗内rule_id命中次数与请求量。
示例表展示最近10分钟样本数据(表格示例居中,边框1,内容居中):
| 时间窗 | 总请求 | 拦截数 | 主规则ID |
| 10:00-10:10 | 12,345 | 1,234 | 100101 (XSS) |
| 10:10-10:20 | 9,876 | 987 | 200205 (SQLi) |
分析示例:若某规则误杀率>10%,需重点排查规则匹配条件与请求示例。
使用日志中的request_uri与user_agent定位误判样本以便复现。
6. 第五步:临时处置(回源/白名单/解除规则)
若确认误拦影响线上业务,先临时调整策略:将规则改为告警或下线。
可对特定回源IP或客户端IP段设置白名单(谨慎,记录变更)。
在WAF控制台执行“转发回源”或关闭防护后观察业务恢复时间。
变更示例:Rule 100101 从“拦截”改为“告警”;记录变更ID与操作人。
若为DDoS攻击,配合阿里云高防/云盾开启清洗或流量调度。
7. 第六步:恢复与回溯(变更记录)
恢复后需回放业务流量在测试环境验证规则可信度。
将临时修改的规则逐步回退并监控命中率与错误率。
记录变更工单、时间、操作者与回滚步骤,便于合规审计。
建议保存关键日志(WAF日志、Nginx日志、系统指标)至少30天。
生成事件报告,包含根因、影响范围、恢复步骤与建议措施。
8. 第七步:演练与优化建议与常见误区解析
建议定期演练WAF规则回退流程与白名单验证,至少每季度一次。
优化建议:使用分级规则(核心/次级/实验),并启用灰度策略验证。
常见误区1:误以为CDN层不受WAF影响——实际上WAF在回源链路也会拦截。
常见误区2:直接放开白名单而忽视来源多样性,可能导致安全风险。
常见误区3:只看控制台总量不导出样本,导致无法定位误判请求。
9. 真实案例与服务器配置举例
案例:某电商活动期间,域名shop.example.com突发大量403,WAF日志显示rule_id=100101在10分钟内命中12,000次。
排查发现Nginx设置了limit_conn_zone $binary_remote_addr zone=addr:10m; limit_conn addr 20;导致支付回调被限流并触发WAF规则。
服务器配置示例:ECS规格 ecs.c6.large,内存8GB,Nginx worker_processes 4,worker_connections 1024。
最终解决:调整Nginx限流策略、将误判规则切换为告警并提交规则优化建议给阿里云团队。
建议保存示例配置、规则ID与日志片段,便于后续复盘与规则调优。