序言

数据挖掘中有一类典型的数据分析问题,是对所分析的对象集合进行聚类、分类分析。但是,在数据挖掘的实际应用中,由于对象属性的高维特征,导致数据挖掘问题的规模巨大,数据挖掘变得异常地困难,甚至导致传统、经典的数据挖掘算法由于计算量大而丧失实用价值。

高属性维数据是比较常见的一种数据形式,对高属性维数据的处理能力是数据挖掘研究与应用中的重要内容。大量的生产管理实践表明,数据挖掘的实际应用问题面对的数据具有高维特性,同时,这些属性的取值却具有稀疏的特征,这类问题称为高维稀疏数据挖掘问题,其本质是数据分析的对象数据具有高属性维,即描述每个对象的属性有很多,但这些属性有很大一部分取值为零。

对于高维稀疏数据挖掘问题,大部分研究工作都集中在数据对象间相似度的度量方法及挖掘算法方面,如高属性维稀疏数据聚类的稀疏特征聚类法(sparse feature clustering,SFC)、基于稀疏特征向量的聚类算法(clustering algorithm based on sparse feature vector,CABOSFV)等。

本书中,作者针对高维稀疏数据挖掘问题,从数据预处理的角度,研究对象—属性空间的划分问题,其目的是把所研究的数据挖掘空间分解为若干规模较小的对象—属性空间,从而降低实际数据挖掘的难度。

该书的研究成果,针对高维稀疏数据挖掘问题,降低数据挖掘规模,建立了体系完整的数据预处理理论和方法,具有很强的理论意义和实践应用前景。

北京科技大学经济管理学院