Page 19 - 网络电信2019年3月刊上
P. 19
运 营 商 专 栏
中国联通电子档案数据挖掘与智能利用的研究
杨茜雅 中国联通集团有限公司
摘要:在大数据时代,企业档案数据呈现
海量化趋势。传统的档案服务方式,难以应对
日益增长的数据需求。针对这一问题, 本文
探讨了现阶段企业档案数据服务里亟待解决的
问题;提出了“两库两平台”的档案智能利用
方法。在企业档案数据利用中引入语义本体概
念实现档案数据语义分析的流程,在此基础上
构建联通电子档案知识图谱系统,将档案数据
之间的关联关系、分析结果直观展示,有效地
展现企业电子档案价值,为电子档案的智能化
管理以及辅助企业决策提供有力支撑。
关键词:联通;电子档案;数据挖掘;语
义本体;知识图谱
引言 据语义分析的流程,对电子档案资源进行深度挖掘,发掘出企
近几年来,伴随着大数据技术的发展和普及,数据挖掘技 业档案数据的潜在价值,并以此构建联通电子档案知识图谱系
术在档案管理中的应用即将进入一个务实的发展时期,档案信 统,将档案数据之间的关联关系、分析结果直观展示,从而完
息服务的底层基础将不再是检索,而是智能化的数据挖掘。目 善企业电子档案数据的知识发现和利用体系,为电子档案的智
前的电子档案馆侧重于数据的归档存储,电子档案的数据挖掘 能化管理以及辅助企业决策提供有力支撑。
和知识利用体系还未建立,现阶段的档案管理主要存在以下三
方面的问题。 一、“两库两平台”建设
(1)数字化档案信息管理中所遇到的手工著录标引工作效 科学规范的管理档案,是衡量一个企业业绩与管理水平的
率极低、机器自动标引精确度无法保证,以及其内容查询的关 重要尺度。企业档案记载着这个企业发展史上的优秀成果,对
联化程度不高,无法同时保证较高的查全率和查准率等当前亟 研究本企业的经营业绩和科学发展提供了第一手资料,是进行
待解决的关键问题,使档案的管理实现逻辑化、智能化。 科学分析,扬长避短,制定发展方向的好教材。档案管理工作
(2)档案数据呈现海量数据趋势,如何在合理时间内从这 做好了,一方面为企业高层管理人员及时了解企业整体经营状
些海量档案数据中撷取、管理、处理、挖掘出有价值的数据信 况,适时调整经营策略提供准确依据,为经营决策提供支持性
息以帮助企业经营决策,是目前进一步建设中国电子档案馆中 证据;另一方面有利于有关各方准确认定企业经营成果,为企
急需解决的问题。目前存在着大量非结构化数据(包含所有格 业与各有关方面进行有益合作奠定坚实的基础。
式的办公文档、文本、图片、图像和音频/视频信息等等)和半 针对当前电子档案馆中数据不能充分利用、企业档案数据
结构化数据(结构方面缺少统一规律的数据),这些数据在获 领域性强、置信度高、形式多样化、结构化数据与非结构化数
取并用于分析时会花费过多成本。档案采用大数据技术的战略 据并存等特点,从档案的数据结构与组织形式、数据分布和规
意义不在于掌握庞大的数据信息,而在于对这些有较高价值的 模、数据多样化程度,以及档案利用的实际需求等方面出发,
饱含历史意义的数据进行专业化处理,强调提高对数据的“加 全方位考察档案大数据的管理方法和利用方式。利用大数据技
工能力”,通过“加工”实现数据的“增值”。 术,构建“两库两平台”模式的档案智能利用中心,充分挖掘
(3)目前的档案数据量巨大,同时,目前使用的档案馆搜 档案的价值,为档案的精准服务与智能利用提供有效方法和实
索技术并不能有效地解决企业各个业务部门、企业决策部门的 践经验,如下页图1所示。
业务开展和决策,同时也不能实现各种存在联系的文件的智能 “两库”即档案信息资源库和档案知识库,“两平台”即
关联搜索,需要提升档案搜索的内在逻辑联系,以及辅助决策 档案数据挖掘服务平台和多维展示平台。
的能力。 (1)档案信息资源库建设
因此,需要构建一个可以整合档案信息资源库和档案知识 目前联通总部和分部的档案数据源数据量大、变化快,如
库,支持档案数据挖掘服务平台和多维展示的平台,在这个平 何保证数据采集和传输的可靠性,如何避免重复数据,如何保
台上,在企业档案数据利用中引入语义本体概念,实现档案数 证档案数据的质量,是目前电子档案馆在进行数据采集和数据
18 网络电信 二零一九年三月