Page 19 - 网络电信2018年4月刊上

P. 19

非常耗费网络资源，并且因为数据量非常大，耗费的时间也相 TB级别的数据量。一个MapReduce作业（job）通常会把输入的
当长；第二是将传输过来的海量数据进行结构化解析，通常为数据集切分为若干独立的数据块，由map任务（task）以完全并
了加快该进度，一般通过多进程的解析日志模式，假如数据日行的方式处理它们。首先整体框架会对map的输出进行排序，然
志量超过一定的规模量，那么解析时间就会非常长；第三是将后把结果输入reduce任务；通常作业的输入和输出都会被存储
结构化数据存储到结构化的数据库中，常见的数据库集群有RAC 在文件系统中。整个框架负责任务的调度和监控以及重新执行
集群、GreenPlum集群等；第四是通过数据库进行分析数据，最已经失败的任务。Hadoop的优势是利用大量的普通机器，将海
终给出数据分析结果，在数据量极大的情况下，结构化数据库量的数据碎片化、分布式地计算，并利用其独有的HDFS（分布
计算非常缓慢甚至无法进行。图1就是常见的处理流程。式文件系统）进行存储管理，实现海量高效稳定计算。
图1 传统域名数据分析方法处理流程 2、基于Hadoop的海量域名数据分析的技术优化应用
某省运营商每日仅某一地市的DNS日志数据就可能达到几百
个Gbit/s，超过几十亿条域名记录，传统方式非常依赖高性能
的机器进行解析和分析，成本上和效率上难以为继。
因此，为了优化传统域名数据分析模式，本文提出了一种
基于Hadoop的海量DNS数据分析系统的技术优化方案，该方案在
广东省某大型运营商的网络中得到了实施应用。整体体系采用
Hadoop框架，主要分为以下3个步骤。
步骤1 在远程日志服务器上直接搭建HDFS，采用ORC的文件
格式，极大地减少了文件存储，并无需传输到本地。
步骤2 基于MapReduce技术，将日志按照MapReduce框架解
析，程序会自动分布式处理和计算，无需增加服务器，直接使
用DNS服务器即可。
3、传统域名数据分析技术的局限性
通过上述流程和图1，可见传统的域名数据处理分析方法有步骤3 基于Hive将结果汇总计算生成报表，整个过程没有
多余的存储、多余的网络传输、多余的数据库成本，具体如图2
以下四大缺点。
所示。采用基于Hadoop框架的域名数据分析优化方案，相比传
－海量网络传输：对于用户群非常庞大的网络运营商，例
统方法具有以下几大优势和技术创新。
如广东省某运营商网内就有几千万的互联网用户，每个DNS节点
上的数据采集前置机上都有数据量非常大的DNS存储数据，如果图2 基于Hadoop框架的域名数据分析优化方案
采用这种方法，每天多达几百Gbit/s规模的日志数据传输的网
络成本和时间成本会非常大。
－海量冗余存储：传统的方法会冗余存储3份数据，即传输
到本地的一份、结构化解析的一份和存放在数据库的一份，运
营商每天的日志数据非常大，无法支撑如此大的存储压力。
－频繁代码解析：假如日志格式发生变化都需要人工修
改结构化解析脚本，那么运营者就可能不断持续地进行调优测
试，网络运营维护的时间成本和人力成本都会非常高，效率也
低下。
－高成本数据库：结构化数据库有一个明显的缺点就是一
旦数据量大运行就会很慢，这同样增加了数据库运营维护的工
作量和人力成本。
因此，在“互联网+”发展的趋势下，随着网络用户和流量
的增长，传统的域名数据分析方法已经难以适应目前网络的增
长趋势，迫切需要进行相关域名数据分析技术的优化和应用研－实现了Hadoop海量数据的本地计算，极大地提升了数据
究、部署。处理效率。整个系统无大量的网络数据传输过程，计算过程置
于域名数据服务器本地，只需配置好Zookeeper功能即可实现远
四、基于Hadoop的海量DNS数据解析系统程计算。传统的数据分析计算需要将数据传输到服务器集群去
的技术优化和应用进行，这种模式极大地增加了网络传输成本和时间成本，例如
1、Hadoop数据分析的关键技术某地市每天DNS日志数据量为500Gbit/s，假设网管传送带宽为
Hadoop是一个通用且易于实施应用的MapReduce软件框架， 10Mbit/s，那传输该日志数据就需要近14.2h。而采用了Hadoop
基于Hadoop架构的应用程序能够运行在由上千个单独机器组成本地计算优化，也即把DNS节点的数据前置服务器当成Hadoop的
的大型集群上，并可以采用一种可靠容错的方式并行处理达到节点，实现了本地服务器的数据计算，大大提高了数据分析能
力，减少了时间成本和运营维护成本，提高了数据分析的实时

网络电信二零一八年四月 19

14 15 16 17 18 19 20 21 22 23 24