1.3 大数据知识工程概念与处理框架

在大数据时代,利用知识工程的思想和方法,通过数据的获取、验证、表示、推论和解释,挖掘出具有潜在关联和创造性的知识,从而形成解决大数据背景下实际问题的专家系统,这是大数据对人工智能发展的启示,即我们所提倡的大知识获取、融合和服务,也称为大数据知识工程。

大知识包括领域的专家知识,也包括从异构的、自治的大数据开始,挖掘包括数据流和特征流在内的多源海量数据而发现的数据对象之间复杂且演化的关系,即碎片化知识。大数据知识工程从大知识的获取和融合开始,以用户需求为导向,提供具有个性化和实时使用价值的知识服务。大数据知识工程源于大数据的数据背景,使用知识工程的分析和建模方法,对知识进行发现、提取和处理。大数据知识工程的处理对象是数据流和特征流,这二者有别于传统的单源静态数据形式,流数据的产生和更新速度通过便携智能设备的普及呈现出爆炸、无序、冗余的趋势,这对传统知识工程提出了更多基于模糊处理和实时响应的要求。这是大数据的本质特征和知识工程技术不断进步带来的必然结果。

1.3.1 HACE定理

2014年吴信东教授等提出的大数据HACE定理表明,大数据始于异构(Heterogeneous)自治(Autonomous)的多源海量数据,旨在寻求探索复杂的(Complex)、演化的(Evolving)数据关联的方法和途径。HACE定理为我们提供了一个三层的大数据处理框架(如图1-1所示),同时也涵盖了大数据的最本质特征。

img

图1-1 大数据处理框架

第一层架构从数据处理的角度出发,考虑大数据的存储和计算问题。在大数据时代到来之前,传统知识工程未必需要分布式计算模式。而现在,从多种类型的便携智能移动端传回的海量数据构成了异构的复杂数据集。传统的处理方法为了适应大数据知识工程的需求,需要关注数据计算能力,着力于提升计算机硬件水平,利用密集型的计算单元,或依赖高性能计算机,提高获取和计算大数据的能力。

基于大数据计算平台,科学家们提出了用集群计算机(Cluster Computers)进行并行计算的方式,这样使得单个计算机上的计算负荷得以分流,从而缓解了对硬件提升的依赖性。这一思想的典型代表是MapReduce和Spark计算工具。MapReduce是谷歌在2004年提出的最原始的分布式架构模型,用于大规模的数据并行处理,它通过函数式程序设计语言的内置函数Map和Reduce将大规模数据计算作业拆分成多个并行的Map任务,其产生的中间结果,通过Reduce任务合并后得到最终的数据结果。近年来,UC Berkeley的Matei Zaharia等人主导开发的新一代大数据分布式处理框架Spark也针对大数据计算提出了一组先进的设计理念。Spark通过各种组件的融合,在处理迭代问题及一些低延迟问题上,改进和优化了MapReduce的分布式架构。然而,现有的大数据计算平台还难以满足流数据的快速响应要求。多个处理器采取空间并行处理的方式,已经在稀疏性较高的数据生成的矩阵上获取了一定的成功,然而,基于高维度的稀疏数据的大数据计算仍是一个挑战。

HACE定理的第二层架构是大数据的语义和应用知识,包含了数据共享与隐私、领域和应用知识的问题。基于第一层架构的并行计算平台输出的计算结果,第二层架构重点发现和分析大数据中的隐含知识。这一层次的任务涉及数据的安全性、可用性、模糊性分析、可信度评估等问题。针对数据的可信度,HACE定理为我们提供了两种思路:一方面,从数据存储的角度,对访问数据进行权限控制,这在一定程度上可以降低对数据误操作的概率并提升数据分析的效率;另一方面,从信息和知识共享的角度,对一部分数据或者数据特征进行匿名化操作,这涉及数据的模糊化查询和处理,通过保护敏感信息提升用户查询需求知识的准确度和个人信息的安全性。

HACE原理的第三层架构从三个方面提出了大数据背景下进行知识挖掘的途径:局部学习和多信息源的模型融合、稀疏不确定和不完整数据的挖掘、复杂的动态数据的挖掘。大数据的使用,不可避免地会产生一个问题:大数据的归属是谁?是产生数据的个人还是使用数据进行分析和推理的科学家?属于机构还是国家呢?在对来自不同数据源的数据进行知识获取和推理的过程中,我们需要根据数据的类型和用户的类型有针对性地给出数据建模的范围。例如,基因数据明显是归属个人信息的范畴,因此,当我们从不同的数据源获取关于同一用户的数据推理结果时,需要过滤大部分的冗余内容,进行针对性的局部学习。同时,由于社交网络和便携智能设备的广泛应用,稀疏的、缺失的、不确定的数据大量产生,尤其是具有动态特征的复杂数据。从数据建模的角度来看,为了获取海量低质数据中的潜在知识,现有的文本模型,包括向量空间模型(Vector Space Model)、潜在语义分析(Latent Semantic Analysis)、支持向量机(Support Vector Machines)、知识图谱(Knowledge Graph)等,各有其优劣。因此,针对具体的数据类型和数据分析与建模需求,合理选择大数据挖掘算法与建模方法,满足动态环境下的知识工程需求,才是大数据知识工程所倡导的。

1.3.2 大数据知识工程模型—BigKE

在大数据时代的背景下进行知识工程研发面临诸多挑战。这主要是大数据海量、异构的多源本质特征带来的。隐藏在海量低质数据下的碎片化知识之间关系复杂且难以发现和管理。然而,挑战和机遇是并存的。复杂的数据环境为知识工程带来了挑战,同时也为大数据知识工程带来了提升的空间。基于HACE定理,2015年由吴信东教授等提出的大数据知识工程模型—BigKE(如图1-2所示),是一种包含三个阶段的知识建模方法,该模型用以解决碎片化知识建模与多数据源的在线学习、碎片化知识的非线性融合、需求驱动下的自动化知识导航这三个大数据知识工程的关键问题,最终为用户提供一种个性化的知识导航服务。

BigKE的第一阶段是采用合适的模型解决多源数据的碎片化建模问题。通过分析碎片知识的共现主题,经过对数据的可靠性评估和融入数据的时空特征的建模过程,输出碎片化知识的语义封装。这里的语义划分依据可能是话题、时间片、地域特征等。

img

图1-2 大数据知识工程模型—BigKE

经过BigKE第一阶段的语义封装,获得了通过合理的模型表示的碎片化知识。第二阶段的BigKE需要对碎片化知识进行非线性融合,这也是大数据知识工程与传统的知识工程的主要区别之一。传统的知识工程先利用聚合方法获取全局知识,在此基础上进行一系列的推理过程。大数据知识工程对碎片化知识融合过程有两点创新:①考虑到碎片化知识的融合无法采用传统线性方法;②利用知识图谱进行融合和表示,对碎片化知识的复杂关联具有更好的展示和推理作用。

大数据知识工程的最终目标是提供以用户需求为导向的知识服务。通过第二阶段获得评估后的知识图谱,引入用户的社交和个性化的建模需求进行调整,在知识图谱中发现最佳的知识导航路径,从而提供基于需求的知识服务。传统的知识工程注重的是管理和使用已获取的数据,从而发现已有的知识,对于具有动态特征的复杂关联的数据并不能很好地做出调整。大数据知识工程关注的是对未来的预测,通过知识图谱能够很好地适应动态关联的数据,从而给出个性化的查询和推荐结果。