Page 20 - 网络电信2020年4月刊上
P. 20

的思想。团队主要由软件工程师组成,通过开发软件工具、自                          工具。将核心网运维分拆到最底层后发现,每一位运维人员都
            动化流程等方法替代传统模型中的人工操作。这种开发模型下,                         离不开网元指令下发和性能数据采集两大块,核心网又涉及不
            SRE  运维工程师至少有 50% 的时间用于开发和学习,通过开发                    同厂商的不同种类设备,接口和性能字段各不相同,底层开发、
            工具,力求将剩余 50% 的运维工作量减少,最终达到节省直接                       维护需要的精力非常大。核心网 SRE 团队应该搭建统一的工具
            成本和间接成本的目的。                                          链,将指令接口、数据接口、短信接口等常用功能通过 API 封
                运营商核心网运维在网络变革的大潮中急需运维技能 IT                       装,SRE 人员开发应用时直接通过 API 调用相应能力即可,无需
            化转型,多张网络的工作                                                                        关注底层,将有限的精
            量叠加不能还是用增加人                                                                        力尽可能放在上层应用。
            员的传统方法来维持,网                                                                        推 荐 使 用 Zabbix 或 者
            络维护 IT 化转型需要一                                                                      Ansible 工具作为指令接
            个实操锻炼的突破口。受                                                                        口,Zabbix 可 以 作 为 性
            限于维护资金以及迭代周                                                                        能数据采集平台,短信能
            期的减少,核心网运维队                                                                        力单独封装,上层再用
            伍中需要有一批人成为有                                                                        API 网关工具统一管理,
            效的开发工程师,做到自                                                                        对外输出。
            研。SRE 模型正好提供了                                                                          (4)重点测试
            可行的转型思路。SRE 在                                                                          SRE 工具和自动化平
            运营商信息技术领域已经                                                                        台是重点测试项目,一
            成熟,但是在传统核心网                                                                        些看似无害的查询语句,
            维护领域,还属于探索阶段。                                        在自动化平台的高频执行下,也可能会引起 CT 网元设备故障。
                                                                 这些工具和平台本身就是风险点,需要资深核心网工程师介入
                三、核心网 SRE 原则                                     测试。
                SRE 模型对 IT 全流程运维都提供了处理意见,但是 CT 运
            维和 IT 运维之间还是存在固有区别的,并非事事都可遵从 SRE                         四、核心网 SRE 团队建设
            模型。本节对核心网 SRE 可取之处进行重点探讨,其他部分利                           SRE 遵循自愿原则,团队建设由小变大。核心网运维 IT 开
            旧 CT 运维,在核心网 SRE 起步阶段没必要照搬。但目前不可取                    发能力较弱,不能希望核心网 SRE 人员很快就拥有 Google  SRE
            不代表将来也不可取,核心网从 CT 向 IT  转型,许多理念正在                    那样的开发能力,这不现实,所以应适当下调技术能力要求,
            改变。                                                  满足当前工作环境即可。首先是全员使用 Python,同一种语言
                (1)运维减负                                          可以拉平不同开发人员使用不同语言的代沟。Python 学习简便,
                SRE 的目的是运维减负,这也是核心网 SRE 最容易学习的                   针对 CT 设备各类接口天然带有各种官方库,SRE 人员不需要把
            部分。首先减少重复性工作,例如定期报表取数,可以通过让                          精力花在各类接口调测上。其次是熟悉数据库操作,CT 运维离
            核心网运维人员自行开发报表工具解决。以往的方案通过厂商                          不开各类数据库调用,结合 Python 工具可以有效地使用各类库。
            开发各类取数平台,但这些平台价格昂贵、迭代周期长、缺乏                          最后是 Linux 学习,Linux 是网络虚拟化演进后绕不开的技术,
            个性化。SRE 运维是最贴近需求的开发者,利用 SRE 模型,产品                    后期对网络的编程都建立在 Linux 的虚拟机、容器等技术上。
            迭代速度将极大地提升。其次是运维自动化,SRE 推崇自动化                        核心网 SRE 团队根据技能水平分工,具体见表 1。
            代替人工。核心网许多常规性工作完全可以由 SRE 自动化实现,
            减少运维机械工作量。                                               五、核心网 SRE 运维实践
                (2)运维自动化                                             核心网 SRE 运维实践从 SRE 学习、运维减负、软件工程和
                自动化可以带来效率的倍增,但在解决问题的同时可能产                        运维自动化 4 个方面进行,如图 1 所示。4 个方向紧密配合,
            生其他问题。SRE 平衡自动化优缺点后还是主推自动化,甚至容                       SRE 学习提供人员技能,软件工程搭建开发平台以方便各类应
            忍造成的大规模故障发生。自动化是核心网减人增效所必需的,                         用工具部署,运维减负和运维自动化基于应用工具实现。核心
            但是对于项目执行必须谨慎。核心网自动化工具应尽量使用在                          网 SRE 人员原则上需要 50% 的时间来学习和开发,这是与传统
            告警监控、设备巡检等外围手段上,避免对生产数据直接进行
            操作。在核心网 IT 化转型的趋势下,NFV 网络的终极目标已被                      表 1 核心网 SRE 团队架构
            设定为网络自动化。但在核心网 SRE 起步阶段,SRE 人员更应该
            从各类支撑平台入手,例如部署设备自动巡检工具、性能告警
            自动监控工具,用自动化的方法减少人工参与,同时达到 IT 练
            兵的目的。
                (3)开发简单化
                核心网 SRE 开发团队需为每一位开发者提供尽可能方便的


                                                       网络电信 二零二零年四月                                            19
   15   16   17   18   19   20   21   22   23   24   25