Page 33 - 网络电信2016第3期
P. 33

大数据分析

体业务逻辑和数据之间的对应关系十分琐碎,运营数据往往来      已经变得不太现实。因此,企业需要利用数据分析技术、工具
自不同的数据源,具有不同的类型和格式,所以大数据通常无      或平台,智能地从大量复杂的生产原始数据中发现新的模式和
法预先规划和准备好,数据的获取是一个难题。在具体应用的      知识作为改善生产过程的决策依据,系统性地提高生产效率。
大数据挖掘任务中,需要在数据的导入、整合上有很大的灵活
性,只有通过业务人员和数据挖掘工程师的配合,不断尝试,           2.等离子显示器制造中基于FIU-Miner的大数据解决
才能有效地将企业的业务需求与数据挖掘的功能联系起来。在      方案
大数据获取过程中还需要根据应用需求注意数据聚合过程中的
隐私保护,避免泄露用户的敏感信息。                      四川虹欧显示器件有限公司就是利用大数据挖掘来提高等
                                 离子屏的生产良率。我们可以通过下面这个案例来阐述应用驱
      由于大数据的多样性,所获取和整合的大数据通常还不能  动的大数据挖掘。等离子显示器制造中大数据挖掘的难点是:
直接应用于数据挖掘算法,需要对数据进行预处理,结合具体      自动化的生产方式中自动采集的数据急剧增长,需要强大的数
应用处理数据的结构信息,抽象数据的语义信息等,并需要对      据分析能力来支撑;大量的生成过程控制参数对高维数据分析
所获得的大数据中的各种属性进行选择,剔除与应用无关的属      的效率和结果的准确性提出了更高要求。这个过程本身就是
性,或者引入额外的抽象测度等。大数据的质量是知识发现结      对数据进行探索、分析和理解的一个循序渐进的迭代过程。因
果有效的保证,所以需要对数据中的噪音进行过滤,对缺失值      此,一个实用的系统应该提供一个集成的、高效率的分析平台
进行处理。                            来支持这个过程。

     3.应用驱动的大数据挖掘算法                    在平台方面,基于FIU-Miner,结合实际挖掘任务的具体需
      数据挖掘领域中的很多算法都是从实际应用的具体需求   求和难点,我们在架构上增加了数据分析层,如图3所示。其中
衍生和发展出来的。从顾客交易数据分析到隐私保护数据挖
掘,从文本数据挖掘到多媒体数据挖掘,从Web 挖掘到社交网      图3 数据分析层
络挖掘,这些不同子领域的算法都是由应用推动的。数据挖掘
是个交叉学科,融合了统计分析、数据库、信息检索、机器学      数据探索系统主要提供对数据的宏观理解和快速预览,以及敏
习、模式识别、人工智能等领域的研究成果。大数据挖掘要以      感参数验证。利用联机分析处理(OLAP)技术帮助分析人员快
具体应用为驱动,根据应用数据特性,挖掘任务需求,选择、      速掌握挖掘任务相关数据的特性,指导后续的数据预处理,如
集成相应的数据挖掘和机器学习算法,并根据需要进一步进行      属性选择和测度建立等。数据分析系统集成了根据实际大数据
研究,在实际问题中得到应用和验证。如基于关联规则和时间      挖掘任务的需要所选择数据挖掘算法,包括参数选择、参数配
序列分析的分类算法就是关联规则发现和时间序列模式识别的      置和回归分析。数据分析人员通过操作界面调用算法,聚焦具
有机结合;半监督学习和半监督聚类也是分类和聚类的融合结      体的分析任务,并且算法对数据分析人员透明。结果管理系统
果。在处理高维、稀疏的数据时,数据的分布不明显,需要注      基于业务分析结果产生分析报告,这些分析报告可以直接给决
意算法的可靠性。在处理复杂关系网络的数据时,需要根据应      策者提供决策依据,同时报告系统也为领域专家提供收集反馈
用的数据特征来研究能够处理异构信息网络的图挖掘算法。       的接口。领域专家知识的引入对优化模型、改进算法具有很大
                                 的指导意义。
    应用驱动大数据挖掘的应用
                                     结束语
     1.高端制造业大数据挖掘挑战
      高端制造业是指制造业中新出现的具有高技术含量、高         大数据一词经常被用以描述和指代信息爆炸时代产生的
附加值、强竞争力的产业,包括电子半导体生产、精密仪器制      海量信息,研究大数据的意义在于发现和理解信息内容及信息
造、生物制药等。这些制造领域往往涉及严密的工程设计,复      与信息之间的联系。文章从大数据本身的表现形式的4V特点出
杂的装配生产线,大量的控制加工设备与工艺参数,精确的过      发,结合大数据挖掘的案例中体现的新4V特点,提出应用驱动
程控制和材料的严格规范。随着信息技术在高端制造业中的       的大数据挖掘思想,指出大数据的本质是应用、算法、数据和
普及,高端制造业中积累了大量的生成设计、机器设备、原材      平台四个要素的有机结合。应用驱动的平台、应用驱动的数据
料、环境条件、生成流程等生产要素相关的历史数据,其中蕴      获取和预处理、应用驱动的算法是大数据挖掘成功实施的关
含了对生产和管理有帮助的高价值信息。通过大数据挖掘,企      键。应用驱动的大数据挖掘在高端制造业的成功实施案例,验
业可以把隐藏在这些海量数据中有用的、深层次的信息挖掘出      证了本文所提思想的正确性和可行性。未来,随着大数据挖掘
来,用来指导流程控制、生产调度、优化决策等方面,从而能      技术的不断深入,应用驱动的大数据挖掘将会体现更大的价值
够在实际应用中改进产品品质,提升产品性能和生产效率,最      和广泛的应用前景。
终达到提高企业行业竞争力的目的。
      高端制造业中的数据挖掘面临很多挑战,比如:如何有效
分析大规模数据,如何保证对数据分析效率和分析结果的准确
性等。在实际应用中,依靠传统信息系统从海量数据中进行查
询和报警或单纯利用专家经验来分析和发现潜在有价值的信息

50 网络电信 二零一六年三月
   28   29   30   31   32   33   34   35   36   37   38