第2章 批处理计算模式及其应用

2.1 批处理技术

随着IT技术及Web 2.0的广泛应用,大型企业收集了海量的数据的PB级数据,并且数据量在持续增长;随着物联网技术应用的推进,也会收集海量的数据。这些海量数据中蕴涵着丰富的知识,通过对这些海量数据进行分析,可以为企业带来可观的收益。因此,为了有效地对海量数据进行处理,近年来,工业界提出了云计算(Cloud Computing)技术。普遍认为,云计算是处理海量数据的一种有效方式,其内涵主要是指IT基础设施的交付和使用模式,普通用户可以通过网络以按需、易扩展的方式获得所需要的资源。一般来说云计算主要包含以下3个层级。

(1)基础架构即服务(Infrastructure-as-a-Service, IaaS):意味着从云中提供虚拟服务器、虚拟桌面计算机或远程存储,从而避免硬件和人力资源上的资本投入。

(2)平台即服务(Platform-as-a-Service, PaaS):平台服务是实践云计算的重点之一,将应用运行所需的各种IT资源和基础设施以服务的方式提供给用户使用,包括中间件服务、系统服务、通信服务等,并提供消息服务等多种服务形式。

(3)软件即服务(Software-as-a-Service, SaaS):是一种通过Internet提供软件使用和服务的模式,用户无须购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。相对于传统的购买和自主开发软件,SaaS解决方案有明显的优势,包括较低的前期成本,便于系统维护、升级及快速展开应用等。

通常云计算应该具备以下几条特征:基于虚拟化技术快速部署资源或获得服务;实现动态的、可伸缩的扩展;按需求提供资源、按使用量付费;通过互联网提供、面向海量信息处理;用户可以方便地参与;形态灵活,聚散自如;减少用户终端的处理负担;降低了用户对于IT专业知识的依赖。

针对智能电网中收集的大数据,需要挖掘数据价值,提高数据利用率。当前处理离线数据的有效方式是批处理技术,比如主流的Hadoop MapReduce技术。批量计算首先进行数据的存储,然后再对存储的静态数据进行集中计算。Hadoop是当前主流且典型的大数据批量计算架构,由HDFS(Hadoop Distributed File System)分布式文件系统负责静态数据的存储,并通过MapReduce将计算逻辑分配到各数据节点进行数据计算和价值发现。

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(Commodity Hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点,但同时它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。HDFS有着高容错性(Fault-tolerant)的特点,并且设计用来部署在低廉的(Low-cost)硬件上。而且它提供高吞吐量(High Throughput)来访问应用程序的数据,适合那些有超大数据集(Iarge Data Set)的应用程序。HDFS放宽了(Relax)POSIX的要求(Requirements),这样可以实现流的形式访问(Streaming Access)文件系统中的数据,其分布式存储结构如图2-1所示。

图2-1 HDFS的分布式存储结构

MapReduce是一种编程模型,用于大规模数据集的并行运算。概念“Map(映射)”和“Reduce(归约)”和它们的主要思想都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。比如经典的wordcount的实现过程如图2-2所示。

图2-2 MapReduce的执行过程

本节将针对智能电网大数据利用云计算技术进行处理,包括利用历史数据预测短期用电负荷;利用聚类算法实现监测数据的划分,减少人工工作量;利用并行EEMD(EnsembleEmpirical Mode Decomposition)算法,提高信号处理的算法。主要采用的是Hadoop MapReduce技术。

随着智能电网的发展,电网与用户之间的交互行为将显著增长。通过与用户的广泛交互,原来不能或很难获取的信息现在变得触手可得,这必将为智能电网发展提供更多的机遇。在智能电网环境下,通过云计算技术帮助海量用户预测短期电力负荷,从而通过利用群体智慧提高电网公司短期用电负荷预测的准确性。该方法有效地利用了MapReduce技术,具有较高的效率和可扩展性。

近年来,随着输变电设备状态监测的广度和深度不断加强,收集的监测数据越来越多,逐渐形成了智能电网状态监测大数据。然而,如何有效地存储和分析状态监测大数据是大数据在状态监测领域应用的关键问题之一。基于云计算平台并考虑状态监测数据的特点,将监测数据海量小文件组合成大的序列文件,并压缩存储,从而提高存储和处理效率。针对状态监测大数据价值密度低的特点,首先利用分形理论对监测数据降维处理,提取时域和频域特征量,并使用密度聚类算法(Density-Based Spatial Clustering of Application with Noise, DBSCAN)对样本数据聚类划分,提取不同聚类的特征数据;然后结合云平台的数据处理能力设计MapReduce并行算法,实现状态监测大数据的聚类划分,并更新和丰富样本特征数据。实验结果表明,该方法可以有效存储状态监测大数据并提取特征数据,为提高设备的状态评估及诊断具有一定辅助作用。

局部放电的检测对于大型电力变压器在监测和故障诊断具有重要的实际意义。局部放电信号通常非常微弱,而数据采集现场往往又含有大量的噪声干扰,可能将局部放电信号淹没。因此,如何正确地从采集到的信号中提取出局部放电信号是对变压器进行在线监测时首要解决的问题。本文开展了基于MapReduce并行技术的EEMD信号处理技术研究。