序言

丛书设计

大数据已经悄无声息地改变了我们的生活和工作方式,精准广告投放、实时路况拥堵预测已很普遍,在一些领域,人工智能比我们更加聪明、高效,未来的个性化医疗、教育将会真正实现,大数据迎来前所未有的机遇。Google公司2003年开始陆续发表的关于GFS、MapReduce和BigTable的三篇技术论文,成为大数据发展的重要基石。十几年来大数据技术从概念走向应用,形成了以Hadoop为代表的一整套大数据技术。时至今日,大数据技术仍在快速发展,基础框架、分析技术和应用系统都在不断演变和完善,并不断地涌现出大量新技术,成为大数据采集、存储、处理、分析、可视化呈现的有效手段。企业需要利用大数据更加贴近用户、加强业务中的薄弱环节、规范生产架构和策略。对数家企业的调查显示,大数据工程师应该掌握的技能包括:Hadoop、HDFS、MapReduce、Hive、HBase、ZooKeeper、YARN、Sqoop、Spark、Spark Streaming、Scala、Kafka、Confluent、Flume、Redis、ETL、Flink/Streaming、Linux、Shell、Python、Java、MySQL、MongoDB、NoSQL、Cassandra、Spark MLib、Pandas、Numpy、Oozie、ElasticSearch、Storm等,作为一名大数据领域的初学者,在短时间内很难系统地掌握以上全部技能点。“大数据核心技术系列”丛书根据企业人才实际需求,参考以往学习难度曲线,选取“Hadoop+Spark+Python”技术集作为核心学习路径,旨在为读者提供一站式、实战型大数据开发学习指导,帮助读者踏上由开发入门到实战的大数据开发之旅!

“大数据核心技术系列”以Hadoop、Spark、Python三个技术为核心,根据它们各自不同的特点,解决大数据中离线批处理和实时计算两种主要场景的应用。以Hadoop为核心完成大数据分布式存储与离线计算;使用Hadoop生态圈中的日志收集、任务调度、消息队列、数据仓库、可视化UI等子系统完成大数据应用系统架构设计;以Spark Streaming、Storm替换Hadoop的MapReduce以实现大数据的实时计算;使用Python完成数据采集与分析;使用Scala实现交互式查询分析与Spark应用开发。书中结合大量项目案例完成大数据处理业务场景的实战。

在夯实大数据领域技术基础的前提下,“大数据核心技术系列”丛书结合当下Python语言在数据科学领域的活跃表现以及占有量日益扩大的现状,加强了对Python语言基础、Scrapy爬虫框架、Python数据分析与展示等相关技术的讲解,为读者将来在大数据科学领域的进一步提升打下坚实的基础。

丛书特点

1. 以企业需求为设计导向

满足企业对人才的技能需求是本系列丛书的核心设计原则,课工场大数据开发教研团队通过对数百位BAT一线技术专家进行访谈、对上千家企业人力资源情况进行调研、对上万个企业招聘岗位进行需求分析,实现对技术的准确定位,达到课程与企业需求的高契合度。

2. 以任务驱动为讲解方式

丛书中的知识点和技能点均由任务驱动,读者在学习知识时不仅可以知其然,而且可以知其所以然,帮助读者融会贯通、举一反三。

3. 以实战项目来提升技术

本丛书均设置项目实战环节,以综合运用书中的知识点帮助读者提升项目开发能力。每个实战项目都设有相应的项目思路指导、重难点讲解、实现步骤总结和知识点梳理。

4. 以“互联网+”实现终身学习

本丛书可配合课工场App进行二维码扫描,来观看配套视频的理论讲解和案例操作,同时课工场在线开辟教材配套版块,提供案例代码及案例素材下载。此外,课工场还为读者提供了体系化的学习路径、丰富的在线学习资源和活跃的学习社区,方便读者随时学习。

读者对象

1. 大中专院校的学生

2. 编程爱好者

3. 初中级程序开发人员

4. 相关培训机构的老师和学员

读者服务

学习本丛书过程中如遇到疑难问题,读者可以访问课工场在线,也可以发送邮件到ke@kgc.cn,我们的客服专员将竭诚为您服务。

感谢您阅读本丛书,希望本丛书能成为您大数据开发之旅的好伙伴!

“大数据核心技术系列”丛书编委会