Hadoop Linux配置详解
Hadoop作为分布式计算框架的核心,其Linux环境配置是部署的基础,本文将从系统准备、JDK安装、Hadoop部署、环境变量配置、集群配置及启动验证六个步骤,详细讲解Hadoop在Linux系统中的完整配置流程,确保环境稳定可靠。
系统准备与环境初始化
在配置Hadoop前,需确保Linux系统满足基本要求,推荐使用CentOS 7/Ubuntu 18.04及以上版本,关闭防火墙和SELinux(生产环境可配置规则),并确保节点间网络互通,执行以下命令初始化环境:
# 关闭防火墙 sudo systemctl stop firewalld && sudo systemctl disable firewalld # 关闭SELinux sudo setenforce 0 # 配置主机名与hosts文件(以三节点为例:master、slave1、slave2) sudo hostnamectl set-hostname master echo "192.168.1.100 master" | sudo tee -a /etc/hosts echo "192.168.1.101 slave1" | sudo tee -a /etc/hosts echo "192.168.1.102 slave2" | sudo tee -a /etc/hosts
配置免密登录(SSH),在master节点执行:
ssh-keygen -t rsa -f ~/.ssh/id_rsa -P "" ssh-copy-id master ssh-copy-id slave1 ssh-copy-id slave2
JDK安装与验证
Hadoop依赖Java环境,推荐安装JDK 1.8或OpenJDK 11,以OpenJDK 11为例:
# Ubuntu系统 sudo apt update && sudo apt install openjdk-11-jdk -y # CentOS系统 sudo yum install java-11-openjdk-devel -y
安装后验证Java版本:
java -version
若输出版本信息,则安装成功。
Hadoop下载与解压
从Apache官网下载稳定版Hadoop(如3.3.6),并解压至指定目录:
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz sudo tar -zxf hadoop-3.3.6.tar.gz -C /usr/local/ sudo ln -s /usr/local/hadoop-3.3.6 /usr/local/hadoop sudo chown -R $USER:$USER /usr/local/hadoop
环境变量配置
编辑~/.bashrc文件,添加Hadoop相关环境变量:
export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # 根据实际Java路径调整
执行source ~/.bashrc使配置生效,验证安装:
hadoop version
Hadoop集群核心配置
进入$HADOOP_CONF_DIR目录,修改以下核心配置文件:
-
core-site.xml(配置Hadoop默认文件系统)
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> </configuration> -
hdfs-site.xml(配置HDFS副本数与数据目录)
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop/dfs/data</value> </property> </configuration> -
mapred-site.xml(配置MapReduce框架)
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> -
yarn-site.xml(配置YARN资源管理)
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> </configuration> -
workers(配置从节点列表)
slave1 slave2
集群格式化与启动
首次启动前需格式化HDFS(在master节点执行):
hdfs namenode -format
启动Hadoop集群:
# 启动HDFS start-dfs.sh # 启动YARN start-yarn.sh
通过jps命令验证进程:
- master:NameNode、ResourceManager、SecondaryNameNode
- slave:DataNode、NodeManager
访问Web界面(http://master:9870)查看HDFS状态,http://master:8088查看YARN资源管理页面。
Hadoop Linux配置需严格遵循系统初始化、环境依赖、参数调优的逻辑顺序,通过上述步骤,可搭建一个功能完整的Hadoop分布式集群,为后续大数据处理奠定基础,实际生产环境中,还需结合安全认证、日志监控等机制优化系统稳定性。














