Page 44 - 网络电信2016年1/2月下

P. 44

解决方案

胁也是已知的。大数据分析的特点是侧重于普通的关联分析，与数据规模接近线性，并且能够快速地收敛到局部最优值，因
而不侧重因果分析，因此通过采用恰当的分析模型可发现未知此成为最广泛应用的聚类算法。然而K-means算法也存在较为明
威胁。显的缺陷，其中有以下两点：

4.大数据真实性分析技术（1）K-means算法需要人为确定聚类数K和选取初始质心
目前，基于大数据的数据真实性分析被广泛认为是最为有集，其聚类结果的好坏明显受到初始化条件的影响,即选取不同
效的方法。基于大数据的数据真实性分析技术能够提高垃圾信的K 值和初始质心集会得到不同的聚类结果。
息的鉴别能力。一方面，引入大数据分析可以获得更高的识别
准确率。例如，对于点评网站的虚假评论，可以通过收集评论（2）K-means算法仅适用于数据项全是数字的情况。对非
者的大量位置信息、评论内容、评论时间等进行分析，鉴别其数字数据进行聚类分析是一个特别棘手的问题，这在很大程度
评论的可靠性。如果某评论者为某品牌多个同类产品都发表了上限制了Kmeans算法的应用范围。
恶意评论，则其评论的真实性就值得怀疑。另一方面，在进行
大数据分析时，通过机器学习技术可以发现更多具有新特征的针对问题（1），Ester M等提出了基于密度的聚类方法
垃圾信息。然而该技术仍然面临一些困难，主要是虚假信息的 DBSCAN，该算法以及以此为基础的一些改进算法采用基于密度
定义、分析模型的构建等。的自动聚类，避免了对初始条件的随机选取，在一定程度上解
云时代的未来必将涌现出更多、更丰富的安全应用和安全决了K-means算法对初始条件敏感的问题。然而，由于基于密度
服务。对于绝大多数信息安全企业来说，的聚类算法时间复杂度通常较高，在处理大规模数据集时会出
更为现实的方式是通过某种方式获得大数现瓶颈；同时在对于非数字数据集的聚类过程中，采用传统的
据服务，结合自己的技术特色领域，对外
提供安全服务。一种未来的发展前景是：基于密度的聚类算法往往会造成聚类失效问
以底层大数据服务为基础，各个企业之间题。
组成相互依赖、相互支撑的信息安全服务
体系，总体上可以形成信息安全产业界的针对以上问题，在借鉴K-means算法框
良好生态环境。架的基础上，文献提出一种基于“预抽样-
5.基于大数据的认证技术次质心”的密度聚类算法，采用预抽样的方
传统的认证技术主要通过用户所知法将算法时间复杂度控制为线性，同时通过
的秘密（例如口令），或者持有的凭证（例如数字证书）来鉴引入次质心的概念，解决聚类失效问题。分
别。这样就会存在问题：首先，攻击者总是能够找到方法来骗析表明该算法能很好地克服K-means算法的
取用户所知的秘密或窃取用户持有的凭证，从而轻松通过认初始条件敏感性和一般密度聚类算法的聚类
证；其次，传统认证技术中认证方式越安全往往意味着用户负失效问题，实现较为理想的聚类结果。
担越重（例如携带硬件USBKey），如果采用先进的生物认证技 7.防范APT攻击的技术
术，又需要设备具有生物特征识别功能，从而限制了这些先进 APT攻击是大数据时代面临的最复杂的信息安全问题之一，
技术的使用。如果在认证技术中引入大数据分析则能够有效地而大数据分析技术又为对抗APT攻击提供了新的解决手段。APT
解决这两个问题。基于大数据的认证技术指的是收集用户行为具有极强的隐蔽性，且潜伏期长、持续性和目标性强，技术
和设备行为数据，并对这些数据进行分析，获得用户行为和设高级，威胁性也大。APT攻击检测方案通常有沙箱方案、异常
备行为的特征，进而通过鉴别操作者行为及其设备行为来确定检测、全流量审计、基于深层协议解析的异常识别、攻击溯源
其身份。这与传统认证技术利用用户所知秘密、所持有凭证或等。在APT攻击检测中，存在的问题包括：攻击过程包含路径和
具有的生物特征来确认其身份有很大不同。这样，攻击者很难时序；攻击过程的大部分貌似正常操作；不是所有的异常操作
模拟用户行为特征来通过认证，因此更加安全，同时又减小了都能立即检测；不能保证被检测到的异常在APT过程的开始或早
用户认证负担，可以更好地支持各系统认证机制的统一。期。基于早期记忆的检测可以有效缓解上述问题，既然APT是在
6.基于大数据的安全规则挖掘技术很长时间发生的，我们的对抗也要在一个时间窗内来进行，并
在Internet网络中，为保证网络安全，会引入防火墙技术对长时间、全流量数据进行深度分析。APT攻击防范策略包括防
和入侵检测技术等。在这些技术中，通常是通过建立一套安全范社会工程、通过全面采集行为记录避免内部监控盲点、IT系
规则或过滤规则达到其安全目标，而这些规则的建立传统方法统异常行为检测等。
是通过专家知识系统。在大数据时代，这些安全规则可以通过
数据挖掘技术或方法实现。结束语
聚类分析是数据挖掘中的一项重要技术，根据在数据中发
现的描述对象及其关系的信息，将数据对象分组。组内相似性大数据带来许多新的安全问题和挑战，但大数据本身也
越大，组间差别越大，聚类效果就越好。是解决问题的重要手段，它就像一把双刃剑，既需要研究合
K-means算法作为聚类分析中的一种基本方法，由适的“盾”来保护大数据，也需要研究如何用好大数据这根
J.MacQueen于1967年首次提出，由于其容易实现，时间复杂度 “矛”。战略资询公司麦肯锡认为：大数据将会是带动未来生
产力发展、科技创新及消费需求增长的指向标，它以前所未有
的速度，颠覆人们探索世界的方法，驱动产业间的融合与分
立。大数据已成为各个国家和领域关注的重要战略资源，可能
对国家治理模式、企业决策、组织业务流程、个人生活方式都
将产生一系列长远、巨大的影响。

68 网络电信二零一六年一、二月

39 40 41 42 43 44 45 46 47 48 49