Page 38 - 网络电信2019年7月刊下
P. 38

企业上云相结合,达到1+1>2的效果,大幅降低了企业的IT投                        图2 面向运营商的云网一体化监控系统功能架构
            入。系统对于运营商的链路、云计算服务提供商的物理资源的
            监控需要运营商和云计算服务提供商的协助和支持;系统对于
            云计算服务的监控,一方面可以通过云计算服务商提供的接口
            监控,另一方面也可以通过部署监控采集节点的方式进行间接
            监控;系统对于云端的企业以及第三方应用系统的监控,公网
            可访问的云应用可以直接进行数据采集,公网不可达的云应用
            可以通过部署采集节点的方式进行间接监控。
                2、系统的监控对象、监控数据
                企业上云后,网络架构由原来的企业网络+运营商接入网,
            转变为企业网络+运营商接入网+云计算提供商网络,系统的监
            控对象包括基础网络设备以及操作系统、中间件、数据库、企
            业应用等。针对不同的监控对象,采集的数据种类、频率以及
            采集所使用的协议都不尽相同。采集的数据一般包括如下几
            种:网络通断检测数据,网络时延、丢包、抖动数据,设备可
            用性检测数据,链路性能、状态数据,设备性能数据,设备
            IPSLA监控数据,设备故障告警数据,中间件、数据库、企业应
            用的监控数据等。针对不同的数据需要采用不同的采集协议进                              客户管理:维护客户的基本信息,能够对客户进行分级、
            行数据采集,常用的采集协议有:SNMP、NetFlow、Syslog、                  分组管理。实现SaaS模式的多租户管理。
            JMX、CORBA、RMI、Socket、WebService等。                        监控对象管理:维护客户的被监控对象信息,主要包括名
                监控数据的采集方式主要有主动采集和被动收集两种模                         称、IP地址、端口、连接配置信息等。
            式:主动采集由监控服务端的采集代理发起,采集被监控对象                              联系人管理:客户联系人的资料主要包括客户的项目负责
            的数据;被动收集由被监控对象发起,需进行预配置,符合条                          人、维护工作联系人的信息等。对于每一个设备,都应该有详
            件时向监控服务端上报数据。这两种模式有时也被称为推模式                          细的联系人信息,以便在设备发生故障时进行通知和联系。
            和拉模式,系统需要同时支持两种模式。                                       场所/区域管理:维护客户的场所和区域信息,每个设备都
                有些监控数据需要经过计算和处理才能转换为系统可用的                        应处于一个具体的场所/区域中,在拓扑图展现时能够进行设备
            数据,例如全双工端口的进带宽利用率,是通过公式(1)进行                         的定位。
            计算得到的。                                                   协议管理:对数据采集涉及到的协议进行管理,维护采集
                IU=(IfInOctets×8×100)/(t×IfSpeed)          (1)   协议的相关参数(如:采集频率、被采集设备的IP地址、端口
                其中,IfInOctets为t秒内端口进字节数,IfSpeed为端口               等)。
            额定带宽(单位:Mbit/s)。                                         策略管理:设置工作策略和时间策略,根据不同的客户等
                数据采集的时间频度的单位一般是秒级,秒级的数据对于                        级,提供基于不同策略的服务标准(例如:5×8h工作日级保
            系统的监控告警是有意义的,但是当用户通过报表的形式查看                          障、7×24h全年无休级保障等)。
            数据时,秒级的数据一方面难以展现数据的长期发展趋势,另                              (2)监控管理模块的主要功能
            一方面巨大的数据量会影响系统的性能,所以需要对秒级的数                              拓扑图:展现客户设备的拓扑图,基于地理位置信息进行
            据进行过滤及归并处理。根据企业的查询统计分析需求,通过                          逐级展现,分别显示以区域、场所、机架分组的设备数量及告
            计算将数据汇聚为各种时间单位的数据,为企业提供可定制的                          警情况。可以通过拓扑图追踪到云主机上某个被监控的云应用
            可灵活展现的统计分析功能。                                        信息。
                3、系统业务功能设计                                           TOP视图:使用NetFlow协议的采集数据展现客户的TOPN的
                为了满足运营商的客户上云后对云端应用的监控运维需                         相关网络通信数据信息,例如:统计网络中数据发送量最大的
            求,对企业上云后涉及的复杂的监控对象进行监控,对多样的                          TOPN设备、统计网络中数据流量最大的TOPN应用等。
            监控数据进行处理,为企业提供实时告警和数据展现,系统的                              监控看板:在一个看板集中展示所有设备告警信息,支持
            整体功能设计如图2所示。                                         多种组合过滤查询,定期刷新告警信息,对告警进行处理和确
                系统主要包括6个功能模块:基础信息管理、监控管理、服                       认。
            务管理、配置管理、统计分析、接口。                                        诊断处理:使用TraceRoute、Ping、Telnet等工具进行设
                (1)基础信息管理模块的主要功能                                 备诊断。
                客户管理:维护客户的基本信息,能够对客户进行分级、                            告警规则管理:设置告警的阈值、延时等条件,对一段时
            分组管理。实现SaaS模式的多租户管理。                                 间内相同的告警进行归并,屏蔽那些短暂偶发即恢复的告警。
                监控对象管理:维护客户的被监控对象信息,主要包括(1)                          采集规则管理:设置采集的范围、频度、指标等信息。
            基础信息管理模块的主要功能。                                           (3)服务管理模块的主要功能

                                                       网络电信 二零一九年七月                                            63
   33   34   35   36   37   38   39   40   41   42   43