Page 39 - 网络电信2016第14期
P. 39
解决方案
再次,算法需要分析复杂场景并对场景进行区分。如果将 为了直观地看出各业务之间的并发关系,我们使用kruskal
全市或者全国所有的数据不加以区分而进行统一处理,那么所 算法构建最小生成树网络 ,[10-11] 对于由N种业务之间的C2N个距
有的特殊区域都将被平均化,然而某些区域的特殊情况的内在 离构建的集合U,首先找出U中的最小值,即距离最小的两种业
原因正是数据分析者们更感兴趣的地方,因此将数据进行合理 务,在这两种业务之间添加一条无向边,连接这两种业务,接
的场景划分,是数据预处理的中重要一步。 着在剩下的C2N-1条边中继续寻找最小值连接业务,同时保证业
务之间不连成环,直至遍历所有距离值。其流程如图4所示。
最后,平台必须能够分布式结构并行处理,提高海量数据
的处理速度。由于大数据更新速度快的特点,能否快速实时的 图4 业务网络构建流程
对海量数据进行处理是整个数据分析的基础。
3.处理流程
为了探究未来一段时间某地区的业务并发关系,我们需要
对该地区采集到的海量数据做预处理。原始数据包括了许多字
段,如基站信息(经纬度)、网络类型、上下行流量、数据包
数、业务持续时长等。我们主要研究各业务之间的联系,因此
只需提取出与业务量有关的字段。首先,从所有数据中出剔除
了许多不常用的或是数据不全的业务,最终得到了60种有效业
务,这些业务对象包括了除语音、短信外所有数据类业务,如
即时消息、社交、流媒体、邮件等;然后再从这60种需要分析
的业务中选取可能会使用到的各业务的上下行流量、用户数、
数据包个数等;最终我们选取了各业务流量来探究业务并发关
系。我们将相关的数据整理为表1格式。
表1 业务流量数据示例
4.结果展示
图5所示为某使用地区,从2014年1月5日开始连续15天全网
60种业务构建的最小生成树业务网络。
图5 最小生成树业务网络
现在各种网络业务越来越多,但是各种业务之间并不是孤 在该业务网络中,各节点代表了不同业务,如快播、优
立存在的,用户使用习惯、业务本身属性等都会使得各业务是 酷、微信、淘宝、新浪微博等。节点大小是由该业务在网络中
息息相关的。为了衡量业务之间关系的大小,我们定义了各业 介数的大小决定的,节点越大代表了该业务介数越大。而对于
务之间的距离。 这样一个由业务构成的网络来说,业务介数越大,其他的业务
就越容易通过它关联在一起,例如在图5中,淘宝与优酷这两种
对于采集到的N种业务,要得到第i(i=1,2,3……N)种业 业务并未直接连接在一起,这说明它们之间的相关性不是最大
务与第j(i=1,2,3……N,j≠i)种业务之间的距离,首先需 的,但是它们还是可以通过一定的路径连接起来,从图中具体
要计算出第i种业务与第j种业务的皮尔逊相关系数,计算公式 来看就是:淘宝——IMESSAGE——快播——优酷,而且从我们
为: 构建该网络的方法来看,这样连接起来的路径一定是相关系数
权重最大的。对于其他业务也可以此类推,可以看出任意两种
(1) 业务相关的路径通过IMESSAGE的次数是最多的。
其中 x(i), x(j)分别为第i,j两种业务流量的时间序列。在
得到业务相关系数的基础上,我们就可以计算第i种业务与第j 该网络中的边选取了不同颜色来标注,不同颜色代表不
种业务之间的距离dij[9],计算公式为: 同的业务距离范围。在阐述该网络的构建方法时我们就已经说
明,边连接的节点是两种距离最小的业务,因此从结合点与边
(2) 即可看出各业务之间的关系:距离越小就说明两种业务越容易
62 网络电信 二零一六年八月