
1. 精华:建立基线与自动化监控,及时告警是第一道防线;2. 精华:以BGP与链路诊断为核心,快速定位延迟与丢包来源;3. 精华:故障演练+备份与回滚,保证恢复在SLA内完成。
本手册面向在港部署并依赖CN2线路的运维团队,提供从日常巡检到紧急处置的完整流程,强调可量化、可追溯与责任到人的执行逻辑,确保在突发故障时能迅速恢复业务。
一、准备与基线。上岗前必须收集并记录香港节点的链路带宽、典型延迟、抖动与丢包基线;配置统一的监控(如Prometheus/Telegraf + Grafana),并对重要指标设置多级告警。
二、巡检清单(每日/周/月)。每日检查包括:链路状态、CPU/内存、磁盘IO、应用端口连通;周检增加路由表/BGP session稳定性;月检做全量固件与配置备份并验证可回滚。
三、常见故障类型与首因判断:1)链路拥塞引起的延迟升高;2)链路或设备故障导致的路径丢失;3)DDoS/异常流量导致的带宽耗尽或报文丢弃;4)BGP策略变更或黑洞路由导致不可达。
四、故障响应流程(SOP)——步骤化、时间窗内完成:0-5分钟:确认告警,记录时间与影响范围;5-15分钟:执行初步诊断(ping、traceroute、mtr、tcpdump),定位是内网、出网还是上游问题;15-30分钟:切换流量至备用链路或临时清洗策略;30-60分钟:与上游ISP/承载商沟通并创建工单,执行长期修复。
五、快速诊断技巧。使用双端对比的mtr可以迅速识别丢包节点;抓包配合tcpdump过滤目标IP,确认是否为应用层异常;查看路由表与BGP peer状态,判断是否存在路由闪断或策略下发错误。
六、链路与BGP异常处理。遇到BGP session频繁重启,优先检查邻居心跳/TTL与ACL规则;若上游单点拥堵,启动策略性流量工程(调整MED/LocalPref、出站策略或临时黑洞与流量清洗服务)。
七、DDoS与流量防护。预置流量清洗与WAF策略,紧急时刻启用按源/按目的端口的速率限制;与承载商联合触发上游清洗,确保业务可用,同时保留抓包与日志作为事后取证与溯源依据。
八、维护升级与回滚。固件/内核/网络设备配置变更前必须:备份当前配置、在测试环境复刻、准备回滚脚本并确认回退窗口;升级后若发现异常,优先执行回滚并记录变更细节。
九、沟通与工单模板。发生影响性事件时,第一时间向业务方发布简明状态(影响范围/预计恢复时间/已采取措施),并同步创建对外工单给承载商,附上诊断结果(traceroute、mtr、tcpdump片段、告警截图)。
十、演练与持续优化。每季度至少一次全流程应急演练,包含链路切换、流量清洗流程与工单升级路径;演练后输出改进清单,并纳入维护手册与知识库。
十一、日志与合规。所有故障必须保留完整日志与操作记录,包含时间戳、操作者、执行命令、恢复动作与根因分析报告,满足内审与SLA追责需求。
结语:面对复杂的香港CN2线路环境,运维不是靠侥幸,而是靠制度、工具与演练。遵循本手册SOP,做到“预防为主、检测为先、响应有序”,才能在关键时刻把故障变成可控事件,真正体现团队的专业可靠性。