Page 44 - 网络电信2016年1/2月下
P. 44
解决方案
胁也是已知的。大数据分析的特点是侧重于普通的关联分析, 与数据规模接近线性,并且能够快速地收敛到局部最优值,因
而不侧重因果分析,因此通过采用恰当的分析模型可发现未知 此成为最广泛应用的聚类算法。然而K-means算法也存在较为明
威胁。 显的缺陷,其中有以下两点:
4.大数据真实性分析技术 (1)K-means算法需要人为确定聚类数K和选取初始质心
目前,基于大数据的数据真实性分析被广泛认为是最为有 集,其聚类结果的好坏明显受到初始化条件的影响,即选取不同
效的方法。基于大数据的数据真实性分析技术能够提高垃圾信 的K 值和初始质心集会得到不同的聚类结果。
息的鉴别能力。一方面,引入大数据分析可以获得更高的识别
准确率。例如,对于点评网站的虚假评论,可以通过收集评论 (2)K-means算法仅适用于数据项全是数字的情况。对非
者的大量位置信息、评论内容、评论时间等进行分析,鉴别其 数字数据进行聚类分析是一个特别棘手的问题,这在很大程度
评论的可靠性。如果某评论者为某品牌多个同类产品都发表了 上限制了Kmeans算法的应用范围。
恶意评论,则其评论的真实性就值得怀疑。另一方面,在进行
大数据分析时,通过机器学习技术可以发现更多具有新特征的 针对问题(1),Ester M等提出了基于密度的聚类方法
垃圾信息。然而该技术仍然面临一些困难,主要是虚假信息的 DBSCAN,该算法以及以此为基础的一些改进算法采用基于密度
定义、分析模型的构建等。 的自动聚类,避免了对初始条件的随机选取,在一定程度上解
云时代的未来必将涌现出更多、更丰富的安全应用和安全 决了K-means算法对初始条件敏感的问题。然而,由于基于密度
服务。对于绝大多数信息安全企业来说, 的聚类算法时间复杂度通常较高,在处理大规模数据集时会出
更为现实的方式是通过某种方式获得大数 现瓶颈;同时在对于非数字数据集的聚类过程中,采用传统的
据服务,结合自己的技术特色领域,对外
提供安全服务。一种未来的发展前景是: 基于密度的聚类算法往往会造成聚类失效问
以底层大数据服务为基础,各个企业之间 题。
组成相互依赖、相互支撑的信息安全服务
体系,总体上可以形成信息安全产业界的 针对以上问题,在借鉴K-means算法框
良好生态环境。 架的基础上,文献提出一种基于“预抽样-
5.基于大数据的认证技术 次质心”的密度聚类算法,采用预抽样的方
传统的认证技术主要通过用户所知 法将算法时间复杂度控制为线性,同时通过
的秘密(例如口令),或者持有的凭证(例如数字证书)来鉴 引入次质心的概念,解决聚类失效问题。分
别。这样就会存在问题:首先,攻击者总是能够找到方法来骗 析表明该算法能很好地克服K-means算法的
取用户所知的秘密或窃取用户持有的凭证,从而轻松通过认 初始条件敏感性和一般密度聚类算法的聚类
证;其次,传统认证技术中认证方式越安全往往意味着用户负 失效问题,实现较为理想的聚类结果。
担越重(例如携带硬件USBKey),如果采用先进的生物认证技 7.防范APT攻击的技术
术,又需要设备具有生物特征识别功能,从而限制了这些先进 APT攻击是大数据时代面临的最复杂的信息安全问题之一,
技术的使用。如果在认证技术中引入大数据分析则能够有效地 而大数据分析技术又为对抗APT攻击提供了新的解决手段。APT
解决这两个问题。基于大数据的认证技术指的是收集用户行为 具有极强的隐蔽性,且潜伏期长、持续性和目标性强,技术
和设备行为数据,并对这些数据进行分析,获得用户行为和设 高级,威胁性也大。APT攻击检测方案通常有沙箱方案、异常
备行为的特征,进而通过鉴别操作者行为及其设备行为来确定 检测、全流量审计、基于深层协议解析的异常识别、攻击溯源
其身份。这与传统认证技术利用用户所知秘密、所持有凭证或 等。在APT攻击检测中,存在的问题包括:攻击过程包含路径和
具有的生物特征来确认其身份有很大不同。这样,攻击者很难 时序;攻击过程的大部分貌似正常操作;不是所有的异常操作
模拟用户行为特征来通过认证,因此更加安全,同时又减小了 都能立即检测;不能保证被检测到的异常在APT过程的开始或早
用户认证负担,可以更好地支持各系统认证机制的统一。 期。基于早期记忆的检测可以有效缓解上述问题,既然APT是在
6.基于大数据的安全规则挖掘技术 很长时间发生的,我们的对抗也要在一个时间窗内来进行,并
在Internet网络中,为保证网络安全,会引入防火墙技术 对长时间、全流量数据进行深度分析。APT攻击防范策略包括防
和入侵检测技术等。在这些技术中,通常是通过建立一套安全 范社会工程、通过全面采集行为记录避免内部监控盲点、IT系
规则或过滤规则达到其安全目标,而这些规则的建立传统方法 统异常行为检测等。
是通过专家知识系统。在大数据时代,这些安全规则可以通过
数据挖掘技术或方法实现。 结束语
聚类分析是数据挖掘中的一项重要技术,根据在数据中发
现的描述对象及其关系的信息,将数据对象分组。组内相似性 大数据带来许多新的安全问题和挑战,但大数据本身也
越大,组间差别越大,聚类效果就越好。 是解决问题的重要手段,它就像一把双刃剑,既需要研究合
K-means算法作为聚类分析中的一种基本方法,由 适的“盾”来保护大数据,也需要研究如何用好大数据这根
J.MacQueen于1967年首次提出,由于其容易实现,时间复杂度 “矛”。战略资询公司麦肯锡认为:大数据将会是带动未来生
产力发展、科技创新及消费需求增长的指向标,它以前所未有
的速度,颠覆人们探索世界的方法,驱动产业间的融合与分
立。大数据已成为各个国家和领域关注的重要战略资源,可能
对国家治理模式、企业决策、组织业务流程、个人生活方式都
将产生一系列长远、巨大的影响。
68 网络电信 二零一六年一、二月