Page 19 - 网络电信2019年3月刊上
P. 19

运 营 商 专 栏

            中国联通电子档案数据挖掘与智能利用的研究



            杨茜雅 中国联通集团有限公司

                                                                     摘要:在大数据时代,企业档案数据呈现
                                                                 海量化趋势。传统的档案服务方式,难以应对
                                                                 日益增长的数据需求。针对这一问题,  本文
                                                                 探讨了现阶段企业档案数据服务里亟待解决的
                                                                 问题;提出了“两库两平台”的档案智能利用
                                                                 方法。在企业档案数据利用中引入语义本体概
                                                                 念实现档案数据语义分析的流程,在此基础上
                                                                 构建联通电子档案知识图谱系统,将档案数据
                                                                 之间的关联关系、分析结果直观展示,有效地
                                                                 展现企业电子档案价值,为电子档案的智能化
                                                                 管理以及辅助企业决策提供有力支撑。
                                                                     关键词:联通;电子档案;数据挖掘;语
                                                                 义本体;知识图谱





                引言                                               据语义分析的流程,对电子档案资源进行深度挖掘,发掘出企
                近几年来,伴随着大数据技术的发展和普及,数据挖掘技                        业档案数据的潜在价值,并以此构建联通电子档案知识图谱系
            术在档案管理中的应用即将进入一个务实的发展时期,档案信                          统,将档案数据之间的关联关系、分析结果直观展示,从而完
            息服务的底层基础将不再是检索,而是智能化的数据挖掘。目                          善企业电子档案数据的知识发现和利用体系,为电子档案的智
            前的电子档案馆侧重于数据的归档存储,电子档案的数据挖掘                          能化管理以及辅助企业决策提供有力支撑。
            和知识利用体系还未建立,现阶段的档案管理主要存在以下三
            方面的问题。                                                   一、“两库两平台”建设
                (1)数字化档案信息管理中所遇到的手工著录标引工作效                           科学规范的管理档案,是衡量一个企业业绩与管理水平的
            率极低、机器自动标引精确度无法保证,以及其内容查询的关                          重要尺度。企业档案记载着这个企业发展史上的优秀成果,对
            联化程度不高,无法同时保证较高的查全率和查准率等当前亟                          研究本企业的经营业绩和科学发展提供了第一手资料,是进行
            待解决的关键问题,使档案的管理实现逻辑化、智能化。                            科学分析,扬长避短,制定发展方向的好教材。档案管理工作
                (2)档案数据呈现海量数据趋势,如何在合理时间内从这                       做好了,一方面为企业高层管理人员及时了解企业整体经营状
            些海量档案数据中撷取、管理、处理、挖掘出有价值的数据信                          况,适时调整经营策略提供准确依据,为经营决策提供支持性
            息以帮助企业经营决策,是目前进一步建设中国电子档案馆中                          证据;另一方面有利于有关各方准确认定企业经营成果,为企
            急需解决的问题。目前存在着大量非结构化数据(包含所有格                          业与各有关方面进行有益合作奠定坚实的基础。
            式的办公文档、文本、图片、图像和音频/视频信息等等)和半                             针对当前电子档案馆中数据不能充分利用、企业档案数据
            结构化数据(结构方面缺少统一规律的数据),这些数据在获                          领域性强、置信度高、形式多样化、结构化数据与非结构化数
            取并用于分析时会花费过多成本。档案采用大数据技术的战略                          据并存等特点,从档案的数据结构与组织形式、数据分布和规
            意义不在于掌握庞大的数据信息,而在于对这些有较高价值的                          模、数据多样化程度,以及档案利用的实际需求等方面出发,
            饱含历史意义的数据进行专业化处理,强调提高对数据的“加                          全方位考察档案大数据的管理方法和利用方式。利用大数据技
            工能力”,通过“加工”实现数据的“增值”。                                术,构建“两库两平台”模式的档案智能利用中心,充分挖掘
                (3)目前的档案数据量巨大,同时,目前使用的档案馆搜                       档案的价值,为档案的精准服务与智能利用提供有效方法和实
            索技术并不能有效地解决企业各个业务部门、企业决策部门的                          践经验,如下页图1所示。
            业务开展和决策,同时也不能实现各种存在联系的文件的智能                              “两库”即档案信息资源库和档案知识库,“两平台”即
            关联搜索,需要提升档案搜索的内在逻辑联系,以及辅助决策                          档案数据挖掘服务平台和多维展示平台。
            的能力。                                                     (1)档案信息资源库建设
                因此,需要构建一个可以整合档案信息资源库和档案知识                            目前联通总部和分部的档案数据源数据量大、变化快,如
            库,支持档案数据挖掘服务平台和多维展示的平台,在这个平                          何保证数据采集和传输的可靠性,如何避免重复数据,如何保
            台上,在企业档案数据利用中引入语义本体概念,实现档案数                          证档案数据的质量,是目前电子档案馆在进行数据采集和数据


            18                                         网络电信 二零一九年三月
   14   15   16   17   18   19   20   21   22   23   24