1.
前期准备与项目范围确认
步骤:①明确业务目标(RPO/RTO、可用性指标)并书面化;②列出机房服务对象、期望容量(机架数、kW)、未来3年扩展规模;③确定预算、合规(香港电力、消防规范)与场地限制(楼层承重、出入口)。小分段:场地图纸、供电图、网络骨干图需提前收集。
2.
现场勘查与容量评估
步骤:①测量可用面积、楼板承重、天花高度;②计算总IT负载(按设备名录逐台功耗相加并预留20%增长);③计算冷负荷(IT负载×PUE目标),并列出电力进线位置与冗余路径。小分段:拍照留档,注明机架位置与通风采样点。
3.
确定冗余等级与设计策略
步骤:①根据业务可用性需求选择N+1、2N或2N+1;②电力链路(双路市电、双路PDU、双UPS组)、发电机配置(至少一台自动启动、并列或冗余)决定;③网络采用双上行、BGP或MLAG实现链路冗余。小分段:用流程图标注故障转移路径并纳入验收测试项。
4.
UPS与发电机选型详解
步骤:①用总IT负载+空余30%计算UPS容量(kVA),选择模块化热插拔UPS便于维护;②电池运行时长按业务需求(常见10-20分钟)与发电机启动时间决定;③发电机按最大并发负载+启动电流倍数(典型1.2~1.5)选型并配置自动转换开关(ATS)。小分段:要求厂商提供FAT报告与电池放电测试记录。
5.
PDU、接地与电缆布线操作
步骤:①机架内采用至少两路PDU(A/B)并分配不同UPS输出;②机房强电布线采用分段安装并标识,电缆桥架按冗余路径布置;③严格执行等电位接地,记录接地电阻值并固定在文档。小分段:使用标签机标注每根电缆与PDU端口。
6.
制冷与热管理实施步骤
步骤:①根据冷负荷选择CRAC/CHW或精密空调,预留N+1或2N冗余;②实施热通道/冷通道封闭,安装温湿度传感器与机架级温度探头;③规划冷冻水管路或冷凝水排放并核算空调能耗。小分段:现场试运行时记录PUE与温度曲线,并调整风道。
7.
网络设备与链路冗余配置
步骤:①核心/汇聚/接入设备选型时考虑端口密度、交换性能与时延;②双核心主备或等价双路设计,使用BGP+ECMP或VRRP/HSRP做冗余;③负载均衡、双防火墙/双负载均衡器并做会话同步。小分段:写明链路切换脚本与回滚步骤。
8.
机架与设备安装实操步骤
步骤:①按机架清单逐台上架并按功率分配到A/B PDU;②机柜布线先走底部电缆桥再做上部网络走线,保持线缆弯曲半径;③固定沉降托盘、安装门禁与温湿报警器。小分段:每台设备编号、资产标签入CMDB并拍照。
9.
测试与验收(FAT/SAT/接管)
步骤:①执行FAT(工厂验收)和现场SAT,测试UPS切换、发电机自动启动、ATS切换;②进行断电切换演练、网络链路故障演练与应用级回归测试;③出具测试报告、故障清单并逐项整改后签署接管文件。小分段:测试脚本应包含时间点、观测点与判定标准。
10.
运维、备件与SLA落地
步骤:①制定日常巡检表(电池电压、温度、漏水、报警日志);②配置监控(SNMP/Syslog/V-Sensor)并接入NOC,设定告警策略与升级流程;③备件清单(PSU、风扇、模块、UPS电池)与厂商SLA需写入合同。小分段:定期做演练(发电机全载、UPS放电)并记录结果。
11.
问:香港机房在设备选型上有哪些本地注意事项?
答:注意当地电网电压规格、发电机排放与噪音规范、空调冷媒限制、消防审批流程与楼宇管理局的门禁要求,提前与物业沟通,确保施工时段与进场许可。
12.
问:如何验证冗余方案是否满足业务RTO/RPO?
答:通过制定详细的故障演练脚本(UPS失效、发电机切换、链路断开、单点设备故障)并测量恢复时间与数据一致性,结果对比RTO/RPO,若不满足需提升冗余等级或优化恢复流程。
13.
问:部署后常见的隐性风险有哪些,如何防范?
答:常见风险包括运维误操作、标签错误、备件不足、未测试的边缘故障。防范措施:严格变更流程、定期演练、完善文档与CMDB、与厂商签订快速响应备件与支持协议。
来源:设备选型与冗余配置香港服务中心机房建设实操指南