Page 19 - 网络电信2020年4月刊上
P. 19
运 营 商 动 态
运营商核心网运维 SRE 转型之路
许沄,黄冰柏,李佐辉,黄洁
中国移动通信集团浙江有限公司
摘要:运营商核心网技术日新月异,网络架构越来越复杂,技术趋势从 CT 化向 IT 化发展,传统的 CT 核心网运维
急需向 IT 化转型。广泛运用于 IT 领域的 SRE(site reliability engineer,网站可靠性工程师)模型为核心网运
维人员提供了一种可行的转型思路。从 CT 运维的角度对 SRE 模型的可行性进行分析,重点对 SRE 提出的各项原则进
行 IT 运维和 CT 运维实际场景的对比,同时论述了团队内部 SRE 转型的实操案例,提供一系列切实有效的转型方案。
关键词 :SRE;核心网;转型
一、核心网转型背景 虚拟化以后的所有核心网设备都需要运维人员编程管理,核心
运营商核心网技术日新月异,2013 年 4G 商用,2015 年 网运维人员 CT 转 IT 迫在眉睫。
VoLTE 商用,2017 年核心网 NFV(软件功能虚拟化)准商用, 运营商核心网运维急需一次跨越式的技能转型,从传统 CT
2018 年 5G 业务测试,2019 年 5G 商用、核心网大区化过渡开始。 工程师转为 ICT 直至 IT 工程师,用 IT 的手段解决 CT 问题。在
曾经 5~10 年才革新一次的网络技术,现在几乎每年都有新技术 资金缺乏、人手增加,但网络不断庞大复杂的情况下,需要自
涌现。 行研发各类 IT 工具,满足新增工作量。SRE 运维模型被广泛运
一方面,近几年的技术更迭并未带来新的利润爆发点,流 用于 IT 领域,为运营商核心网 IT 转型提供了一个可靠的思路。
量红利已快释放完,政府一再要求提速降费。因此在接下来很
长一段时间内,运营商的核心网部门在面临复杂网络运维的同 二、SRE 运维模型
时并不能对等拥有资金支持。这些资金以往被用来购买各类技 SRE 最早由 Google 公司提出。传统的 IT 企业采用“开发部
术支援解决问题,现在这些问题只能由核心网运维人员自行解 (Dev)+ 运维部(Ops)”分离的团队模型,这种模型缺点是随
决。 着系统复杂度、组件、流量的增加,相关的事件和变更需求也
另一方面,混合组网带来的风险以及复杂度呈指数级上升。 将增多,进而造成两个部门间的直接成本和间接成本无可避免
当前的中国移动通信集团拥有 CS(电路域)、EPC(分组域)、 地上升。运营商核心网运维虽然属 CT 领域,但也遵循“Dev+Ops”
vEPC(虚拟化 EPC)、IMS(IP 多媒体网络)、vIMS(虚拟化 模式。核心网运维部主攻 CT 领域,开发部门主攻 IT 领域,相
IMS)、5G NSA(5G 非独立组网)、5G SA(5G 独立组网)多张 互不了解对方的工作技能,成本极大。SRE 模型可以从根本上改
网络叠加,多张网络的运维复杂度是各风险系数的乘积。网络 变这种矛盾。SRE 模型采用的是运维即开发、自动化代替人工
18 网络电信 二零二零年四月