- 大数据技术基础:基于Hadoop与Spark
- 罗福强 李瑶 陈虹君
- 7509字
- 2021-03-27 00:50:22
1.2 大数据的概念、特征及意义
1.2.1 什么是大数据
随着大数据概念的普及,人们常常会问,多大的数据才叫大数据?其实,关于大数据,不同的机构或个人有不同的理解,难以有一个非常定量的定义。
美国咨询公司——麦肯锡公司是研究大数据的先驱。该公司在其报告《大数据:创新、竞争和生产力的下一个前沿领域》中针对大数据给出的定义是:大数据指的是大小超出常规的数据库工具能获取、存储、管理和分析的数据集。该报告同时强调,并不是说一定要超过特定 TB 值的数据集才能算是大数据。
国际数据公司(IDC)从4个特征定义大数据,即海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。
亚马逊公司的大数据科学家 John Rauser 给出了大数据的简单定义:Big data is any amount of data that’s too big to be handled by one computer(大数据是任何超出了一台计算机处理能力的数据量)。
维基百科对大数据的定义是:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策实现更积极目的的信息。
《大数据时代的历史机遇》一书的作者认为:大数据是“在多样的或者大量数据中,迅速获取信息的能力”。
可见,大数据是一个宽泛的概念,见仁见智,有些人可能强调数据的规模,即“大”字;有些人则可能强调大数据的作用,即大数据能帮助人们做什么;甚至有些人更强调新数据处理技术的应用。综合而言,本书采用“百度百科”的定义:大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
1.2.2 大数据的特征
大数据是一种数据量增长速度极快,用传统的数据处理方法或工具无法在用户所要求的时间内完成采集、处理、存储和计算的数据集合,它具有以下五大特征。
1.数据量大(volume)
大数据的第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是PB,也可采用更大的单位EB或ZB。相关信息单位的换算关系如下。
1 Byte =8 bit
1 KB = 1 024 Bytes = 8192 bit
1 MB = 1 024 KB = 1 048 576 Bytes
1 GB = 1 024 MB = 1 048 576 KB
1 TB = 1 024 GB = 1 048 576 MB
1 PB = 1 024 TB = 1 048 576 GB
1 EB = 1 024 PB = 1 048 576 TB
1 ZB = 1 024 EB = 1 048 576 PB
2.类型繁多(variety)
大数据的第二个特征是种类和来源多样化。大数据可以是结构化、半结构化和非结构化的数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。
3.价值密度低(value)
大数据的第三个特征是数据价值密度相对较低。有人把大数据比喻成金矿,金矿只有经过反复清洗与筛查,才能获取其中的黄金,大数据是浪里淘沙却又弥足珍贵。特别是,随着互联网以及物联网的广泛应用,智能感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的数据挖掘与机器学习算法来挖掘数据价值,是大数据时代最需要解决的问题。
4.速度快时效高(velocity)
大数据的第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
5.永远在线(online)
大数据时代的数据是永远在线的,是随时能引用和计算的,这是大数据区别于传统数据的最大特征。大数据不仅仅是规模大,更重要的是在线。数据只有在线(即数据与产品用户或者客户产生连接)的时候才有意义。例如,对于滴滴打车软件,只有客户的数据和出租车司机的数据都是实时在线的,他们的数据才有意义。在一个互联网应用系统中,一个用户行为及时地传送给数据使用方后,数据使用方通过有效数据加工(数据分析或者数据挖掘),还可以进行数据优化,最终把用户最想看到的内容推送给用户,显然将有助于用户体验的提升。
1.2.3 大数据来自哪儿
随着互联网、物联网、移动互联技术的发展,以电子商务(如京东、阿里巴巴等)、社交网络(微信、微博等)为代表的新型Web应用迅速普及,从而涌现了各种各样的大数据。目前,大数据主要来源于以下几大领域。
1.搜索引擎服务
国内的搜索引擎服务商以百度为典型代表,百度的数据总量目前已经达到1000PB,网页多达几千亿。百度每天需要响应来自 138 个国家和地区的数十亿次请求,每日新增数据 10TB,每日要处理超过100PB的数据。
2.电子商务
在电子商务行业,大量在线交易数据,包括支付数据、查询行为、物流运输、购买喜好、点击顺序、评价行为等,汇聚起来构成大数据。以阿里巴巴为例,2013年该公司的电子商务数据总量就达到了30PB。目前,阿里巴巴拥有近5亿注册用户,面向全球提供电子商务服务,使用了大约30万台服务器来保证电子商务的正常运营,并保存在线交易数据、用户浏览和点击网页数据、购物数据等。在这些数据中,需要长期保存的数据量已达数百PB。
3.社交网络
现在社会人际交往已经全面进入社交网络的时代。大量的社交网络平台,如新浪微博、知乎、豆瓣、人人网、QQ 空间、微信、开心网、人人分享等,为人与人之间的沟通与交流提供了越来越便捷的服务。社交网络是互联网中人人都可以参与、创造、分享、传播的信息互动平台。大量的互联网用户创造出海量的社交行为数据,这些数据是过去未曾出现的,其中包含了大量的语音、图片、视频、短信等数据,数据规模之大前所未有。以腾讯QQ为例,它拥有8.5亿用户,使用4400台服务器来存储用户产生的数据信息,经压缩处理以后的数据总量达100PB,并且这一数据还在以每日新增200~300TB,月增加10%数据量的速度不断增长。
4.音视频在线服务
如今在线听音乐或看电影已经成为一种主流的休闲娱乐方式。对于优酷网、爱奇艺、百度视频、土豆网、搜狐视频、乐视网、PPS、迅雷看看、腾讯视频、新浪视频、56网视频、CNTV视频、PPTV、风行网等音视频在线网站来说,新的音视频数据本身、高并发的在线播放请求以及用户操作记录都在源源不断地产生。
5.个人数据业务
随着智能手机的普及,集传感器、GPS、录音、拍照、录相、短信等多功能为一体的移动设备成为互联网中个人数据的爆发点。例如,已知iPhone手机有3个传感器,三星手机有6个传感器。它们每天会产生大量的点击数据,形成海量用户行为数据。这些数据会通过智能手机自动上传到公司后台的服务器中。
6.地理信息数据
电子地图(如高德地图、百度地图、Google地图)及其应用的涌现,也产生了大量的数据流数据。与代表一个属性或一个度量值的传统数据所不同的是,这些数据流数据不仅仅是经纬度、道路和地理标识之间的关联,更代表着一个特定用户的行为和习惯,这些数据流数据经过分析就会产生巨大的商业价值。
7.传统企业
传统企业,包括电信、金融、保险、电力、石化系统等,随着产业升级、信息化建设的深入推进,将会爆发对大数据技术的需求。
电信运营商拥有大量的用户通话、短信、地理位置、3G/4G上网记录等数据,总量至少在PB级,而且每年新增的数据也在PB级。
目前,全国仅“银联”银行卡发行量就已接近40亿张,每天有近600亿人民币的交易额通过银联的银行卡交易,虽然单张卡片数据量不大,但汇总起来就是一个非常庞大的数据量。目前国内银行和金融系统每年产生的数据也能达到PB级,保险系统生成的数据量也会接近PB级别。
截至2013年年底,国家电网累计安装智能电能表1.82亿只,实现采集1.91亿户,采集覆盖率56%,自动抄表核算率超过97%。智能电网正在产生大数据。例如,国网信通在北京5个小区的353个采集点采集1.2万个参数,包括频率、电压、电流等,如果每15min采集一次,一天就能产生34GB的数据。
同样,石油化工、智能水表等领域每年产生和保存下来的数据量也可达到PB级别。
8.公共机构
公共事业机构,包括政府、医疗、交通、教育、气象等,也是大数据的重要来源。
随着平安城市、智慧城市等工程的推进,安防监控对高清化、智能化、网络化、数字化的要求越来越高,数据量自然也会不断地迅速增加。例如,一个1080P的高清网络摄像机一个月产生的视频文件就可达1.8TB,而一个大城市的摄像头可能多达50万个,每天采集的视频数据量就可以达到3PB。尽管出于成本考虑,很多监控视频具备定期清除循环的特点,但整个视频监控系统每年能够保存下来的数据至少有数百PB。
与此相关的交通方面,航班、列车、水陆路运输产生的各种视频、文本类数据,每年都可达到PB级别。例如,北京市交通运行监测调度中心通过整合行业内外27个应用系统、6000多项静动态数据、6 万多路视频,每天新增数据量达 30GB 左右,这些数据为政府决策、行业监管、企业运营、百姓出行等提供了服务支持。
有统计表明,中国一个中等城市(1000万人口)50年所积累的医疗数据量可达到10PB。以此推算,整个医疗卫生行业,一年能够保存下来的数据就可以达到数百PB。
目前,中国气象系统所保存的全部数据在4~5PB,每年大约新增数百TB的数据,包含了地面观测、卫星、雷达和数据预报产品等几大类的观测数据。除了常规的地面观测站之外,以气象卫星和多普勒天气雷达为代表的遥感遥测业务领域在近30年来取得了飞速发展,这些领域每天都会产生TB级的观测数据。
1.2.4 大数据的挑战
大数据的挑战是全方位的,必将对技术、运营商、安全、企业运营与管理等带来全面的挑战。
1.大数据对技术的挑战
虽然大数据的相关技术正在日渐成熟,但是目前仍然存在着许多问题,以及以下严重不足。
互联网运营商的带宽能力以及对大数据爆炸式增长的适应能力将面临前所未有的挑战。
● 大数据处理与分析的能力远未达到人们心中的理想水平,人们既需要高速信息传输,也需要大数据系统能对低密度低价值数据进行快速分析和处理。
● 物联网实时数据(包括传感器和摄像头等的自动采集)的快速增长,对现在的存储解决方案提出了全新的挑战。
● 大数据技术产品在快速的发展中如何保持系统兼容性和保证已投入资源的价值将面临挑战。
● 现有的软件工程模式,无论是思想、方法,还是工具,在大数据环境中都将面临新的挑战,特别是大数据的可视化还没有达到人们的需求水平。
● 大数据的快速发展导致大数据人才的匮乏,无论是人才培养模式、教学内容、教学方法,还是实验室建设等,都面临巨大挑战。
2.大数据对信息安全的挑战
大数据技术与应用在快速发展的同时也带来了更多安全风险。
(1)大数据系统将成为网络攻击的主要目标之一。在 Internet 中,大数据将是更容易被“发现”的目标。一方面,大数据常常包含了更复杂、更敏感的数据,这些数据会吸引更多的潜在攻击者。另一方面,汇集起来的大数据使得黑客成功攻击一次就能获得更多数据,无形中降低了黑客的进攻成本。
(2)大数据加大了隐私泄露风险。大量私人数据的汇集不可避免地加大了个人隐私泄露的风险。一方面,如何保证集中存储之后的大数据信息不被泄露、不被滥用,本身就是一个亟待解决的大问题;另一方面,一些敏感数据的所有权和使用权并没有明确的法律界定,出于成本控制的需要,那些基于大数据的分析产品可能在设计之初就没有考虑个体隐私保护问题,甚至无法排除犯罪份子恶意使用大数据分析结果的可能。例如,若将个人手机的GPS功能与地理信息和日常出行结合进行大数据分析,则可以预测出一个人在下一时间段将在何地做何事,这将成为个人的最大人身安全隐患。
(3)大数据威胁现有的存储和安防措施。大数据存储带来新的安全问题。例如,企业的生产数据与经营数据很可能会汇聚并存储在一起,这将导致企业安全管理出现问题。大数据的规模也会影响到安全控制措施能否正确运行。特别是,当安全防护手段的更新升级速度无法跟上数据量非线性增长的步伐时,系统就会暴露大数据安全防护的漏洞。
(4)大数据技术本身也会成为黑客的攻击手段。在企业用数据挖掘和数据分析等大数据技术获取商业价值的同时,黑客也在利用这些大数据技术向企业发起攻击。黑客会最大限度地收集更多的有用信息,比如邮件、微博、微信、电子商务交易与支付、电话和家庭住址等信息,然后进行大数据分析,从而使黑客的攻击更加精准。另外,大数据也为黑客攻击提供了更多机会。例如,利用大数据技术,黑客可能同时控制上百万台互联网中的服务器,然后发起僵尸网络攻击。
(5)大数据成为高级可持续攻击的载体。传统的安全检测是基于单个时间点进行的基于安全特征的实时匹配检测,而高级可持续攻击是一个实施过程,无法被实时检测。此外,大数据的价值低密度性,使得安全检测工具很难聚焦在价值点上,黑客可以将攻击隐藏在大数据中,给安全服务提供商制造障碍。黑客设置的任何一个会误导安全厂商目标信息提取与检索的攻击,都会导致安全监测偏离应有方向。
3.大数据对运营商的挑战
大数据对运营商将从技术和业务两个层面带来挑战。
前者所面临的主要挑战是数据的管理、采集、分析不足。数据量的增加使得运营商传统的处理和存储数据的平台压力增大,数据类型的多样化使得传统数据处理平台难以处理。另外,运营商知道用户访问过哪些网站,但是不知道用户究竟看了哪些内容;或者知道用户在哪个地址,但是不知道用户在哪个地点。
后者所面临的挑战有3条最为紧迫。一是法律环境的缺失和民众不客观的情绪。在西方,什么是信息隐私、什么是信息安全是有明确规定的。但是在中国,相关法律是缺失的,甚至可以说是空白。民众对待数据带来的便利和不利的态度,也会影响到大数据的应用。因此大数据应用首先需要更加宽容,更加清晰、明确的法制和用户理性认知与评价的环境。二是行业的快速洗牌会对既有市场秩序产生很大的影响。三是内部体制的挑战。数据获取需要不同部门协同,电信运营商内部还缺乏统一的认识。同样,电信运营商与数据运营商的区别是什么,目前也缺乏统一的认识,这将导致一个电信运营商可能会干类似数据运营商的事情。
4.大数据对企业经营与管理的挑战
大数据对企业的经营与管理将带来诸多挑战。
(1)大数据将改变企业的营销手段。企业的传统营销手段是集中推销和各种广告宣传,更原始的办法是用大量的人力来分发宣传单以推销产品。在大数据的时代,企业可以充分利用大数据进行精准高效的低成本营销,例如国内各电子商务网站的广告推送服务。
(2)大数据将为企业拓展广阔的新型服务与渠道。例如,日本先进工业技术研究所的科学家通过在汽车座椅下部安装压力传感器来采集人体臀部特征数据,做成了能识别车主的防盗系统,该系统只要发现驾驶员不是车主,就会要求司机输入密码,如密码不对,汽车会自动熄火。
(3)大数据成为企业管理决策的重要依据。例如,美国网飞公司(Netflix)在推出全球首部网络剧《纸牌屋》之前,将其庞大的用户数据库作为科学决策的依据,依靠数据分析抓住观众的喜好,最终确定了剧本、导演以及演员。《纸牌屋》推出之后,迅速成为美国各大社交网站的热门话题,其明星效应使得该剧大获成功。《纸牌屋》进入中国后,首先在美剧迷中掀起交流高潮,继而由美剧迷在网络中发起的分享行为得以扩散。所有这些都是对传统影视公司商业模式的一种颠覆,也成就了一个网站主导、数据先行的商业神话。
(4)大数据对公共部门的服务与管理也将带来极大的变革。事实表明,大数据在政府和公共服务领域的应用,可有效推动政务工作开展,提高政府部门的决策水平、服务效率和社会管理水平,产生巨大社会价值。2009年,谷歌公司通过把 5000万条美国人最频繁检索的词条和美国疾控中心在2003至2008年间季节性流感传播时期的数据进行比较,成功预测了当年甲型H1N1流感的爆发及传播源头,远早于官方的疾控中心。
1.2.5 研究大数据的意义
大数据在带来巨大技术挑战的同时,也带来了巨大的技术创新与商业机遇。不断积累的大数据包含着很多在小数据量时不具备的深度知识和价值,大数据分析挖掘将能为行业/企业带来巨大的商业价值,实现各种高附加值的增值服务,进一步提升行业/企业的经济效益和社会效益。由于大数据隐含着巨大的深度价值,美国政府认为大数据是“未来的新石油”,将对未来的科技与经济发展带来深远影响。因此,在未来,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有、控制和运用也将成为国家间和企业间新的争夺焦点。
(1)大数据计算提高数据处理效率,增加人类认知盈余。大数据技术就像其他的技术革命一样,是从效率提升入手。大数据技术平台的出现提升了数据处理效率。其效率的提升是成几何级数增长的,过去需要几天或更多时间处理的数据,现在可能在几分钟之内就会完成。大数据的高效计算能力,为人类节省了更多的时间。我们都知道效率提升是人类社会进步的典型标志,可以推断大数据技术将带领人类社会进入下一个阶段。通过大数据计算节省下来的时间,人们可以去消费、娱乐和创造。未来大数据计算将释放人类社会巨大的产能,增加人类认知盈余,帮助人类更好地改造世界。
(2)全局的大数据让人类了解事物背后的真相。相对于过去的样本代替全体的统计方法,大数据将使用全局的数据,其统计出来的结果更为精确,更接近真实事物,能够帮助科学家了解事物背后的真相。大数据带来的统计结果将带来全新的认知。纠正过去人们对事物错误的认识,影响过去人类行为、社会行为的结论,有利于政府、企业、科学家了解人类社会各种历史行为的真正原因。大数据统计将纠正样本统计误差,为统计结论不断纠错。大数据可以让人类更加接近和了解大自然,增加对自然灾害原因的了解。
(3)大数据有助于了解事物发展的客观规律,有利于科学决策。大数据收集了全局的、准确的数据,通过对大数据的分析和统计,可找出事物发展过程中的真相(例如,分析出人类社会的发展规律、自然界的发展规律等),利用大数据提供的分析结果来归纳和演绎出事物的发展规律,通过掌握事物发展规律来帮助人们进行科学决策。
(4)大数据提供了同事物的连接,客观了解人类行为。在没有大数据之前,我们了解人类行为的数据往往来源于一些被动的调查表格及滞后的统计数据。拥有了大数据技术之后,人类日常行为将通过手机APP、摄像头、分享的图片和视频等与大数据技术实现对接,从而收集到人类的行为数据,再经过一定的分析,就可以统计或预测人类行为,进而可以更加客观地观察人类的行为。实际上,实现人类行为数据汇聚和分析,不仅有助于了解人类行为特点,而且这些数据最终将聚集成为一个巨大的“矿藏”。大数据技术的一个重要作用就是从中挖掘出重要商业价值。
(5)大数据改变过去的经验思维,帮助人们建立数据思维。人类社会的发展一直都在依赖着数据,无论是工农业的发展与规划,还是军事战役的谋划,更多的是依靠经验。但是出现大数据之后,我们将会面对着海量的数据,多种维度的数据、行为的数据、情绪的数据、实时的数据。这些数据是过去无法获取,甚至是无法想象的,通过大数据计算和分析人们将会得到更可靠的结果。依靠这些结果,人们将会发现决定一件事、判断一件事、了解一件事不再困难。例如,政府可借助于大数据来了解民众需求,抛弃过去的经验思维和惯性思维,掌握社会的客观规律,达到社会“良治”。