2.2 大知识与大知识系统

数据分析专家用正面形式和反面形式描述了大数据的本质。正面形式给出了所有大数据的共有性质,如3V、4V、5V及HACE,反面形式则定义了大数据不是什么。陆汝钤等人对大知识同样也给出了正面形式和反面形式的描述。下面,给出大知识的正面形式。

定义2.1 大知识(Big Knowledge

大知识是一个大规模的结构化知识元素的集合,其中每个知识元素可以是一个概念、一个实体、一条数据、一个规则或者是其他计算机可操作的信息元素。

大知识最常见的性质有以下五种。

性质1:大规模概念(Massive Concepts,MC1

大知识一定是规模庞大的。然而,数据是可数的,但知识作为一个抽象概念是不可数的。因此,只能使用大知识中知识元素的个数来衡量其数量。概念是所有知识元素类别中最重要的一类,没有概念就不会有知识,因此概念的数量理所应当是巨大的。

关于大知识中概念的数量很难给出一个绝对的下界。为此,陆汝钤等人提供了一个相对的下界。《不列颠百科全书》包含228274个主题或概念,474675个子主题或子概念。英文词汇数据库WordNet包含155287个词(即实例),通过117659个同义词集(即概念)组织了起来。《汉语大词典》包含25万个词条或概念。因此,如果将它们视为大知识,那就可以将下界设置为10万个概念。

性质2:大规模连通性(Massive Connectedness,MC2

连通性是指知识元素之间关联的程度。它可以是神经系统中的连接,逻辑中的关系,或者是以三元组(主语、谓语、宾语)形式表示的事实。没有关联就不会有推理。对于大知识,重要的不仅是其关联的数量,知识元素之间关联关系的和谐分布对其良好的结构性质更加重要。

OpenCyc的版本2、3、4分别拥有47000个、177000个、239000个概念和306000个、1505000个、2093000个事实(关系)。后者大约是前者的8倍。基于这一事实,陆汝钤等人将100万作为概念-概念关联关系数量的下界。

对于关联分布的和谐性,他们给出了两种不同的度量:

● 节点对之间的连通率m/(n(n-1))。其中n是概念个数,m是两个可以通过关联路径连通的概念节点对的个数;

● 局部节点对之间的连通率K(i)/(k(i)(k(i)-1)/2) 对所有节点求平均。其中k(i)是节点i的邻接边数目,而K(i)是其所有相邻节点之间的边数。

性质3:大规模干净数据资源(Massive Clean Data Resources,MC3

在从大数据到大知识的过程中,原始数据需要经过清洗、过滤、挑选、甚至可能还要转为更合适的格式。所有这些中间形式都应作为干净的数据资源保留下来,以便在更多的场景复用,例如因数据丢失或损坏而进行数据恢复、数据处理过程中可能需要的数据溯源、在需要新信息时进行数据再挖掘以及在其他应用中进行数据再利用。

干净数据资源通常规模比较庞大。例如,学习系统NELL有超过5千万个候选信念(Belief),其中具有高置信度的仅有356万个,剩下的4644万个候选信念就作为干净数据资源保存;DBpedia知识库中只有458万个实体,而其干净数据资源的数量要远超这一数字,其中有2.4亿个链接指向外部知识源,包括外部网页和编辑过的知识源(如英文维基和YAGO2)。然而,有时干净数据资源不一定规模庞大。例如,人们从甲骨文中收集了5000个不同的古代汉字,其中只有2000个汉字被辨识出来,剩下的3000个汉字只能作为干净数据资源。最后,考虑到上述不同案例中干净数据资源与知识的比率具有很大差别,根据大知识的干净数据资源与其本身体量的比率,陆汝钤等人将MC3的平均下界设置为10。

性质4:大规模案例(Massive Cases,MC4

这里大规模案例具有两层含义:一方面表明大多数概念和关系具有多个实例,另一方面也表明大多数知识组件具有多种应用。例如,大多数知识图谱都具有1千万个左右的实例,1亿~10亿个事实;维基百科每个月有180亿次网页浏览,接近5亿个访问者;对于Web上的开源知识,可以通过下载次数来估计其实用程度。

性质5:大规模可信(Massive Confidence,MC5

大规模可信意味着大知识的大多数元素具有较高的置信指数。具体可以定量描述如下:给定两个小于100的正实数mn,如果满足|100-min(m,n)|<δ,其中δ是一个较小的数,则意味着不少于m%的知识元素的置信度要不小于n%。Knowledge Vault中有16%的事实达到了0.9的置信度。虽然YAGO2通过随机采样检查有95%的概率能够到达0.9的置信度,但基于自动知识获取构建的知识图谱一般而言置信度都是比较低的。实际应用中,n=m=80是一个相对合理的标准。

上面的5个MC并不同等重要。简而言之,MC1、MC2和MC5是大知识的必要性质,而MC1~MC5一起构成了大知识的充分性质。

基于上述大知识的典型特征,并且考虑到大知识的终极目标是尽可能好地服务社会,因此一个关于大知识的系统,简称大知识系统(Big Knowledge System,BK-S),就应该包含在指定领域解决大量不同类型的问题的先进算法、技术和工具,并提供用户友好的知识服务。为此,陆汝钤等人为大知识系统定义了下面的性质。

性质6:大规模能力(Massive Capabilities,MC6

这一性质从两个方面对大知识的能力提出了要求:①解决大量特定领域问题的专业能力;②用户友好且能提供高质量知识服务的能力。

基于MC6,给出了如下关于大知识系统的定义。

定义2.2 大知识系统(Big Knowledge System

大知识系统是由知识元素和功能元素组成的系统,其中知识元素满足MC1~MC5,功能元素实现MC6要求的能力。

上述六个性质共同构成了大知识系统的完整定义。利用这一定义,陆汝钤等人从大知识与大知识系统的角度对现有知识图谱(包括WordNet、HowNet、FrameNet、ConceptNet、MuiseNet、Freebase、Knowledge Graph、Knowledge Vault、Facebook Graph、OpenCyc1~4、Probase、DBPedia、YAGO1~3、CNKI、NELL等)进行了重新审视,进而提出两项高级大知识系统的MC标准。

性质7:大规模累积(Massive Comulativeness,MC7

一个大知识系统应当持续不断地增加和更新其知识元素并提升服务能力。人们不仅对其中所包含的知识感兴趣,而且也对其变更、演化和未来趋势感兴趣。人们同样乐见其稳定地增加新的功能。所有实现这些功能的技术和工具都应该随时间推移而改进、更新,甚至是重新发明。这就是说,高级大知识系统应该是活跃的、动态的,而非僵死或静态的。

其实,大多现有的知识图谱都是逐步累积起来的。例如,从2012年的YAGO2到2014年的YAGO3,对象数目从1千万增长到4500万,事实数目从1.2亿增长到5.4亿,两年时间增长了4.5倍。大知识系统最终会达到某种稳定的状态。在其演变的过程中,新的信息和数据会持续不断地到来。数据更新会促进知识更新,包括概念更新、连接更新和其他知识元素的更新。

性质8:大规模关注(Massive Concerns,MC8

高级大知识系统不受限于任何特定的知识领域。它们收集任意类型的知识。这类大知识系统特别适用于搜索引擎,以及公共知识的普及。大多数现有的知识图谱都是这种类型的,比如Google Knowledge Graph、Knowledge Vault、Probase、YAGO1~3、Wikidata及Xlore。

一个知识系统的推理能力高度依赖两个属性,即一致性和完备性。现有的大知识系统不满足这两个属性,但未来的大知识系统都应具备。为此,陆汝钤等人引入了在模态逻辑研究中众所周知的可能世界(Possible World)思想。对于一个大知识系统,任何知识元素都属于不同的可能世界,并在不同的可能世界中有不同的赋值。所有知识元素构成的集合,被一个可能世界构成的集合所覆盖。每个可能世界拥有一个置信度,表明这个可能世界中所有知识元素的一致置信程度。据此,可以引入下面的一致性标准。

性质9:大规模一致性(Massive Consistency,MC9

大规模一致性是指整个大知识能够被一个可能世界集合所覆盖,其中每个可能世界都是逻辑一致的,并且至少有一个可能世界满足MC1、MC2和MC5。注意,大知识整体可能不满足全局一致性。一个知识元素可能在某些可能世界以极高的置信度为真,而在其他的可能世界以同样高的置信度为假。它在第三个可能世界中又会有较低的置信度。因此,这里所讨论的一致性是指局部一致性。

陆汝钤等人还引入完备性的三层含义。第一层是纯粹的逻辑含义,对于每个可能世界,都应该存在一个公理系统,使得这个可能世界中的每个真命题都可能通过该公理系统推出;第二层是实践含义,每个概念应该至少含有一个实体,且每个实体应该在其所属类的每个属性上都有值;第三层含义是,关于同一个主题的不同认知存在一个可能世界的完整集合。

在上述三层含义中,第一层含义已得到龙内特等人的研究。它在逻辑上是完美的,但是在大知识中实现起来是笨拙的;第二层含义已经被当下大多数知识图谱所接受。然而,它更加适合实体描述,而对往往需要文字解释的概念却不适合;第三层含义是大知识架构所特有的性质。虽然目前不能确认它没有丢掉任何知识,但未来可能会得到证实。过去一些重要的知识可能值得在大知识中保留,即使它们已经被证明是错的。例如,人们可能会想在学习伽利略的日心说之前,先学习托勒密的地心说。

知识完备性的另一个方面是从另一个视角观察相同的对象。例如,维基百科关于数字地球的页面告诉我们,永远不要满足于单一视角。其作者建议通过多种视角研究数字地球:满足不同人需要的数字地球、满足不同应用需要的数字地球、反映不同宇宙时间的数字地球以及不同软件包支持的数字地球。因此,陆汝钤等人给出了如下对未来大知识系统的多视角完备性的描述。

性质10:大规模完备性(Massive Completeness,MC10

将知识元素分配到不同的可能世界(可能是以一对多的形式),使这些可能世界的并集完全覆盖大知识自身是可能的。这些可能世界存在一个大规模的子集能够达到完备性的标准。