郑州洪灾,通信网络的容灾机制,发挥作用了吗

这两天,河南郑州等地区遭受罕见的强降雨袭击,出现了严重的洪涝灾害。

洪水造成的城市内涝,给当地居民的生命财产带来重大损失。来自现场的触目惊心的视频画面,牵动着全国人民的心。

目前,一线正在进行紧张的抢险救灾行动。我们只能默默祈祷,希望雨早点停,水早点退,灾区的损失不要进一步扩大,灾区人民的生活能尽快恢复正常。

作为通信人,小枣君在关注现场灾情的同时,特别留意了一下通信网络设施的损失情况。

根据以往的经验,遇到大灾大害,当地的通信基础设施一定会遭受损坏。而可靠的通信网络,是抢险救灾的重要保障,也是稳定一线灾民情绪的基石。

也就是说,灾害一旦发生,一线通信人必须尽快投入到通信设备抢修和应急保障的工作中。

小枣君的朋友圈里,就已经有河南的通信同行正在加班加点抢修,力求尽快恢复业务。

▲图片来自郑州联通

根据现场同行反馈的故障通知消息来看,这次洪灾确实造成了远超以往的危害。

▲郑州现场的故障通知消息

往常的普通洪灾,一般只会淹没基站和接入机房。更严重一点,也就是各区县的汇聚机房和机楼机房。这次特大降雨造成的内涝,竟然将省会城市部分骨干核心机房也淹了,而且主备机房都发生雨水倒灌。

这种情况,极为罕见。近几十年,国内应该是没有发生过。

骨干机房,运行着重要的核心网设备。而核心网设备,是整个通信网络的心脏。

▲核心网机房

目前来看,受影响最大的,是运营商的 HLR 设备。

HLR,全名是 Home Location Register,归属位置寄存器。它是一种用户数据库设备,是核心网关键设备之一,存储着所有本地用户的数据信息,包括用户的基本信息、基本业务信息、补充业务信息,等等。

HLR 是 2G/3G 时代的叫法,现在 4G/5G 时代,HLR 已经改名叫 HSS(Home Subscriber Server,归属签约用户服务器),功能和性能上有所升级。

HLR 和 HSS,作为用户数据库,是整个通信网络的核心。但凡出现重大网络故障,多半和它们有关。要么是数据库误删,要么是传输中断(例如光纤中断),导致 HLR(HSS)链路中断。

2017 年广西南宁重大网络中断故障,就是运营商 HLR 的 80 万用户数据被误删导致的。当时整网业务中断长达 8 小时 39 分,影响巨大,责任方被罚 5 亿元人民币。

这次郑州 HLR 被淹退服(通信行业术语:退出服务),影响本来也是巨大的。但是从现场情况来看,应该是容灾机制发挥了作用,所以没有造成大面积的通信中断。

首先,提醒一下河南灾区的兄弟姐妹们,最近期间手机尽量不要关机。因为手机开关机都需要联系 HLR 进行“登记”。

▲正常情况下

在 HLR 退服的情况下,手机开机,信令消息到不了 HLR,就无法得到来自网络的身份确认,也就无法接入网络。

▲HLR 退服情况下

一般来说,手机连入网络后,网络也会定期对手机进行“位置更新”。也就是说,每隔一段时间,网络会让手机上报状态信息。这次,在灾情发生的情况下,当地运营商可能已经在网络侧手动修改配置,延长了更新周期,避免位置更新失败。

此外,本次郑州 HLR 退服,运营商的异城异地备份方案也发挥了重要作用。

在本地主备 HLR 都受灾的情况下,运营商启用了位于邻近省份省会城市的备份 HLR,临时顶替退服的本地 HLR,保障业务的实现。

这基本上算是最高级别的备份了,专门针对战争、恐袭、地震等极端情况。

▲不同的容灾级别

在极特殊的情况下,用户通话量激增,网络中信令消息太多,超过了网络链路的负荷,网络侧可能会采取取消用户鉴权等手段,尽可能降低网络信令负荷,避免网络彻底拥塞。

本次洪灾,固网宽带接入业务的 radius 设备离线,就采取了取消鉴权的方法。

Radius,全名是 Remote Authentication Dial In User Service,远程用户拨号认证系统。看名字就知道,也是一个对用户进行认证授权的设备。现场 radius 故障,采用的解决方案,就是直接关闭认证,启用拨号不认证策略,保证所有用户网络畅通。

除了 HLR 之外,根据现场反馈的情况,微波中继线路也有短暂影响,IPTV 业务也受影响,这些都不算太麻烦。

目前,现场的通信工程师们正在进行紧张的设备抢修,相信不久之后,核心骨干网络的功能就会恢复。随着洪水的退却,各个站点机房的抢修也会紧锣密鼓地启动起来,老百姓的手机和宽带业务,会逐渐恢复正常。

最后,再次祈祷河南地区的雨早点停,洪水早点退,希望大家都平平安安的,也希望所有一线的通信工程师们能注意安全,不辱使命,抢险成功!