频道栏目
首页 > 网络 > 云计算 > 正文

Spark2.0.0伪分布安装教程

2017-12-13 14:23:30         来源:Liri  
收藏   我要投稿

Spark2.0.0伪分布安装教程

1.引言

Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有MapReduce所具有的优点;但不同于MapReduce的是——中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

在本篇博客中主要介绍一下Spark的伪分布安装,博主的环境为:

操作系统为:Centos6.7 JDK的版本为:1.7 JDK的安装目录为:/usr/local/jdk Hadoop的版本为:2.6.1 Hadoop的安装目录为:/usr/local/hadoop scala的安装版本为2.11.8 scala的安装目录为/usr/local/scala spark的安装版本为2.0.0 spark的安装目录为/usr/local/spark

2 .Hadoop伪分布安装

因为Spark可以使用Yarn平台调度资源(也可以不使用Yarn平台,因为个人比较喜欢,所以首先安装了Hadoop的伪分布)

如果不安装Yarn平台,请首先配置SSH免密码登陆

3 .Scala安装

首先将scala解压,并改名

//将scala解压到/usr/local目录下
tar -zxvf scala-2.11.8.tgz -C /usr/local/
//进入到/usr/local目录
cd /usr/local
//修改scala目录名称
mv scala-2.11.8 scala

这里写图片描述

这里写图片描述

修改环境变量

//修改profile文件
vim /etc/profile
//修改的环境变量内容
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin:$PATH
//重新加载环境变量文件
source /etc/profile

这里写图片描述

验证scala是否安装成功

//命令验证scala是否成功安装
scala -version

这里写图片描述

4. Spark伪分布安装

将Spark解压,并改名

//将spark解压到/usr/local目录下
tar -zxvf spark-2.0.0-bin-hadoop2.6.tgz -C /usr/local/
//进入到/usr/local目录
cd /usr/local
//修改spark目录名称
mv spark-2.0.0-bin-hadoop2.6 spark

修改spark的配置文件:conf/spark-env.sh

//将配置模板文件,修改为配置文件
cp spark-env.sh.template spark-env.sh
//修改配置文件的内容如下所示:
export JAVA_HOME=/usr/local/jdk
export SCALA_HOME=/usr/local/scala
export SPARK_WORKER_MEMORY=1G
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=localhost

这里写图片描述

验证spark是否安装成功

//启动spark(sbin目录下面)
./start-all.sh
//使用jps查看进程,出现Master和Worker进程即启动成功
jps

这里写图片描述

Web浏览器验证Spark安装成功 

//启动spark(sbin目录下面)
./start-all.sh
//当启动spark之后,浏览器输入http://localhost:8080,如果出现下图即启动成功

这里写图片描述

上一篇:Openstack中使用iso安装系统并启动vm教程
下一篇:并查集合问题代码讲解
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站