1.1 运行环境准备

考虑到大部分公司的开发和生成环境都采用Linux操作系统,所以笔者选用了64位的Linux。在正式安装Spark之前,先要找台好机器。为什么?因为笔者在安装、编译、调试的过程中发现Spark非常耗费内存,如果机器配置太低,恐怕会跑不起来。Spark的开发语言是Scala,而Scala需要运行在JVM之上,因而搭建Spark的运行环境应该包括JDK和Scala。

1.1.1 安装JDK

使用命令getconf LONG_BIT查看Linux机器是32位还是64位,然后下载相应版本的JDK并安装。

下载地址:

http://www.oracle.com/technetwork/java/javase/downloads/index.html

配置环境:


cd~
vim .bash_profile 


添加如下配置:


export JAVA_HOME=/opt/java
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar


由于笔者的机器上已经安装过openjdk,所以未使用以上方式,openjdk的安装命令如下:


$ su -c "yum install java-1.7.0-openjdk"


安装完毕后,使用java–version命令查看,确认安装正常,如图1-1所示。

图1-1 查看安装是否正常

1.1.2 安装Scala

下载地址:http://www.scala-lang.org/download/

选择最新的Scala版本下载,下载方法如下:


wget http://downloads.typesafe.com/scala/2.11.5/scala-2.11.5.tgz


移动到选好的安装目录,例如:


mv scala-2.11.5.tgz ~/install/


进入安装目录,执行以下命令:


chmod 755 scala-2.11.5.tgz
tar -xzvf scala-2.11.5.tgz 


配置环境:


cd ~
vim .bash_profile 


添加如下配置:


export SCALA_HOME=$HOME/install/scala-2.11.5
export PATH=$PATH:$SCALA_HOME/bin:$HOME/bin


安装完毕后输入scala,进入scala命令行说明scala安装正确,如图1-2所示。

图1-2 进入scala命令行

1.1.3 安装Spark

下载地址:http://spark.apache.org/downloads.html

选择最新的Spark版本下载,下载方法如下:


wget http://archive.apache.org/dist/spark/spark-1.2.0/spark-1.2.0-bin-hadoop1.tgz


移动到选好的安装目录,如:


mv spark-1.2.0-bin-hadoop1.tgz~/install/


进入安装目录,执行以下命令:


chmod 755 spark-1.2.0-bin-hadoop1.tgz
tar -xzvf spark-1.2.0-bin-hadoop1.tgz


配置环境:


cd ~
vim .bash_profile 


添加如下配置:


export SPARK_HOME=$HOME/install/spark-1.2.0-bin-hadoop1