首页 > 网络 > 云计算 > 正文
Hadoop伪分布式配置
2016-10-29       个评论    来源:CandySleep的博客  
收藏    我要投稿
一、环境准备
1.hostname配置
# vi /etc/sysconfig/network

\

使生效:

# hostname rainbow.com.cn

查看:# hostname

rainbow.com.cn

2.修改hosts文件

(1)linux中:

# vi /etc/hosts
\\\

(2)window中hosts文件中:

C:\Windows\System32\drivers\etc\hosts

添加: 192.168.138.123 rainbow.com.cn

3.关闭防火墙
关闭:
# service iptables stop
查看:
# service iptables status
重启不启动:
# chkconfig iptables off

4.安装jdk
$ tar -zxvf /opt/software/jdk-7u67-linux-x64.tar.gz -C /opt/modules/

5.安装Hadoop

$ tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules/

删除doc文件夹(API文件很大)

$rm -rf doc/
配置环境变量(jdk与hadoop环境变量)
\# vi /etc/profile

\\

使之生效
source /etc/profile

二、配置HDFS

首先打开notepad插件中的Show NppFTP Window,如果没有从官网下载插件或者重新安装软件。

点击 Profile settings,如下弹框,点击Addnew并给profile起一个名字。

链接虚拟机:Hostname 可以输主机名,还可以输不告诉你。 Connection type 下拉选择SFTP。

\

二、配置HDFS

红色框框是我们需要配置的文件。

\\

到/opt/moduces/hadoop-2.5.0/etc/hadoop,打开hadoop,在notepad++中进行修改。

1.hadoop-env.sh #hadoop的环境配置:
\\

2.core-site.xml
(1)指明namenode的地址,端口号:8020 以及hadoop运行时使用的临时文件夹

\\\

3.hdfs-site.xml
设置 hdfs上存储的副本数量,在伪分布式中是1
\
\
4.slaves
配置datanode的主机,datanode和NodeManager配置的主机都是一样的,所以配置的既是datanode也是NodeManager。
\\

三、配置YARN
1.将mapred-site.xml.template重命名为mapred-site.xml
告诉hadoop,mapreduce要在yarn上启动 ,如果不配置此项,mapreduce程序将在本地运行。
\\

2.yarn-site.xml
配置 NodeManager获取数据的方式是shuffle ,指定resourcemanager的主机名。
\\\

四、格式化HDFS

到/opt/modules/hadoop-2.5.0/bin,即bin目录下进行格式化。

$ ./hdfs namenode -format

格式化之后会新增一个tmp文件夹,(如果不小心格式化两次,需要把tmp文件夹删除之后,在进行一个格式化)
\
五、启动HDFS(到hadoop-2.5.0/sbin目录下)

启动方式一:

$ ./hadoop-daemon.sh start namenode
$ ./hadoop-daemon.sh start datanode
$ ./hadoop-daemon.sh start secondarynamenode
启动方式二:

$./start-dfs.sh(需要配置ssh免密码登录才能使用)

查看启动的情况:

\\

在web界面查看:

http://rainbow.com.cn:50070/
\
\

六、启动YARN
$ ./yarn-daemon.sh start resourcemanager
$ ./yarn-daemon.sh start nodemanager
查看启动的情况

\
在web页面查看yarn
http://nicole02.com.cn:8088/
\

七、历史服务及日志聚合配置

1、历史服务:查看看某个application的大致统计信息的,包括启停时间,map任务数,reduce任务数以及各种计数器的值等等。

增加配置在 mapred-site.xml

\

打开JobHistoryServer 进程

./mr-jobhistory-daemon.sh start historyserver

在web页面打开http://rainbow.com.cn:8088/cluster如下图:

\

2、日志聚合:是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container/任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。这个日志存储的就是具体map和reduce的日志,包括框架的和应用程序里自己打印的。如何在hadoop中查看日志?进入/opt/modules/hadoop-2.5.0/logs目录

\

运行一个mapreduce任务,web端打开http://rainbow.com.cn:8088/cluster

\

点击History进入如下页面:

\

点击logs查看日志,程序出现错误,就多看下日志。

点击复制链接 与好友分享!回本站首页
上一篇:【品高云7年】一、云计算10年从概念与技术到业务与场景
下一篇:Hadoop集群搭建
相关文章
图文推荐
文章
推荐
热门新闻

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做实用的IT技术学习网站