Page 21 - 网络电信2020年4月刊上
P. 21

运 营 商 动 态

              图 1 核心网 SRE 运维实践                                   集前台应用需要的数据。采集脚本原则上由设备负责人编写,
                                                                 他们熟悉设备信息,开发维护方便。
                                                                     步骤 2  SRE 人员在 Zabbix 前端 Web 界面配置执行,管理阈
                                                                 值、告警等级。
                                                                     步骤 3 执行采集脚本。
                                                                  图 3 核心网 SRE 开发流程








            运维的最大不同。如不能给 SRE 人员充足的学习、开发时间,
            被迫让 SRE 人员在休息时间完成工作以外的开发,反而会增加
            SRE 人员工作量,进而降低 SRE 人员的转型热情。在 SRE 刚起
            步阶段,还没有明显产出时,可以从原有运维工作中逐渐拿出
            10%、20%、30% 一档一档地增加开发时间,得到产出反向减少运
            维工作量,最终降低运维占比。
                运营商核心网运维几乎所有工作最终都能分解到网元操作
            和数据库查询这两项。对应这两项基本需求,在软件工程中引
            入了开源的 Zabbix 监控平台,通过这个平台连通全量 5000 台                      步骤 4  所有采集后的数据将自动进入 Elastic  Search 数
                                                                 据库,并通过 Zabbbix 自带功能在 Web 前端呈现。
            CT 网元下发指令,采集数据库性能。所有采集脚本由对应的核
            心网维护人员自行配置,需求方即开发方,遵循 SRE 理念,有                           步骤 5  SRE 人员开发各类前台应用,相关应用通过 Zabbix
                                                                 对外 API 调用,前台应用无需重复开发采集数据。
              图 2 核心网 SRE 数据中台                                       Zabbix 中台已经完成了部分前台应用及工具的开发,极大
                                                                 地提升了运维效率。
                                                                     (1)iMaint 智能作业计划平台
                                                                     通过 Zabbix 已对接的各类网元接口下发指令,定期核查网
                                                                 元健康状态,并生成网元状况报表。
                                                                     (2)短信日报工具
                                                                     定时通过 API 采集中台数据,生成报表,并通过短信接口
                                                                 下发,SRE 人员无需维护数据准确性和短信接口。
                                                                     (3)智能报表
                                                                     通过编写 Python 脚本定期从中台 API 获取数据,生成文本
                                                                 类报表,节省人工填写报表的工作量,报表个性化迭代便捷。
                                                                     (4)iCUT 智慧割接平台
                                                                     平台能做到常规割接自动化操作,在割接结束后的性能验
                                                                 证环节,平台采集数据中台对应网元的告警、性能数据,自动
            效降低间接成本。Zabbix 自带自动化监控告警能力和故障短信                      对比网元割接前后健康情况。
                                                                     (5)监控实时告警
            推送能力,可以有效节省运维工作量。Zabbix 采集不同厂商全
            量网元指标后呈现在一个 Web 界面上,方便运维人员一次性查                           通过数据中台采集实时阈值告警,自动派单,无需对接全
                                                                 量 CT 网元,也无需重复维护性能阈值。
            看,也降低了运维人员的技能要求。Zabbix 监控平台采集不同
            CT 设备的数据,对外使用 RESTful 接口通过标准 API 提供全量
            规整后的数据。目前已采集超过 18000 项指标,这些数据是 CT                        六、结束语
            网元的核心,以此作为核心网 SRE 数据中台(如图 2 所示)为                         运营商核心网 SRE 转型道路不会是一帆风顺的,但应该是
                                                                 转型方案中相对容易的一条道路。SRE方案通过展现自身的优势,
            不同 SRE 前台应用提供实时数据,有效降低核心网 SRE 各类工
            具的开发难度。架构设计师负责整体平台搭建,项目开发人员                          尤其是以减少工作量为目标的特点以及搭建一系列工具链简化
                                                                 开发环境,吸引更多的人加入 SRE 团队。只有让运维工程师切
            负责具体模块实施,项目经理负责前台应用。核心网 SRE 开发
            流程如图 3 所示,具体步骤如下。                                    实感受到减负,并体会到开发并不难,才能有效吸引更多人加
                                                                 入核心网 SRE 团队。而随着 SRE 团队的壮大,越来越多的运营
                步骤 1  SRE 人员在 Zabbix 后端编写 Python 采集脚本,采
                                                                 商核心网运维才能顺利实现 IT 化转型,焕发新活力。

            20                                         网络电信 二零二零年四月
   16   17   18   19   20   21   22   23   24   25   26