本机搭建Hadoop伪分布式模式
Hadoop运行时有三种模式:
单机模式
伪分布式模式
完全分布式模式
前两种可以在单机运行,最后一种用于真实的集群环境,通常用在生产环境上。我们可以搭建本地的伪分布式模式来模拟分布式环境的执行。
步骤如下:
1、去http://www.apache.org/dyn/closer.cgi/hadoop/core/下载Hadoop
2、编辑conf/hadoop-env.sh,将
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun
这行改为
export JAVA_HOME=/usr/local/jdk1.6.0_30
路径是JDK安装的路径,可以在Shell用which java查看,注意是JDK不是JRE噢~
3、解压后,编辑conf目录下的文件:
给core-site.xml添加配置:
<property> <name>fs.default.name</name> <value>hdfs://127.0.0.1:9000/</value> </property> <property> <name>hadoop.tmp.dir</name> <!-- 配置工作的临时目录 --> <value>/home/hesey/tmp/hadoop-hesey</value> </property>
给mapred-site.xml添加配置:
<property> <name>mapred.job.tracker</name> <value>127.0.0.1:9001</value> </property>
给hdfs-site.xml添加配置:
<property> <name>dfs.replication</name> <value>1</value> </property>
4、在Hadoop目录下执行:
bin/hadoop namenode -format
格式化NameNode
5、在Hadoop目录下执行:
bin/start-all.sh
启动所有组件
6、Shell下执行jps命令,可以看到:
3919 DataNode
4119 SecondaryNameNode
3740 NameNode
4427 Jps
4365 TaskTracker
4187 JobTracker
这个时候就可以跑Job啦,如果有错误可以去logs目录下面看日志