hadoop linux配置-好主机测评网

Hadoop Linux配置详解

Hadoop作为分布式计算框架的核心，其Linux环境配置是部署的基础，本文将从系统准备、JDK安装、Hadoop部署、环境变量配置、集群配置及启动验证六个步骤，详细讲解Hadoop在Linux系统中的完整配置流程，确保环境稳定可靠。

系统准备与环境初始化

在配置Hadoop前，需确保Linux系统满足基本要求，推荐使用CentOS 7/Ubuntu 18.04及以上版本，关闭防火墙和SELinux（生产环境可配置规则），并确保节点间网络互通，执行以下命令初始化环境：

# 关闭防火墙
sudo systemctl stop firewalld && sudo systemctl disable firewalld  
# 关闭SELinux  
sudo setenforce 0  
# 配置主机名与hosts文件（以三节点为例：master、slave1、slave2）  
sudo hostnamectl set-hostname master  
echo "192.168.1.100 master" | sudo tee -a /etc/hosts  
echo "192.168.1.101 slave1" | sudo tee -a /etc/hosts  
echo "192.168.1.102 slave2" | sudo tee -a /etc/hosts

配置免密登录（SSH），在master节点执行：

ssh-keygen -t rsa -f ~/.ssh/id_rsa -P ""  
ssh-copy-id master  
ssh-copy-id slave1  
ssh-copy-id slave2

JDK安装与验证

Hadoop依赖Java环境，推荐安装JDK 1.8或OpenJDK 11，以OpenJDK 11为例：

# Ubuntu系统  
sudo apt update && sudo apt install openjdk-11-jdk -y  
# CentOS系统  
sudo yum install java-11-openjdk-devel -y

安装后验证Java版本：

java -version

若输出版本信息，则安装成功。

Hadoop下载与解压

从Apache官网下载稳定版Hadoop（如3.3.6），并解压至指定目录：

wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz  
sudo tar -zxf hadoop-3.3.6.tar.gz -C /usr/local/  
sudo ln -s /usr/local/hadoop-3.3.6 /usr/local/hadoop  
sudo chown -R $USER:$USER /usr/local/hadoop

环境变量配置

编辑~/.bashrc文件，添加Hadoop相关环境变量：

export HADOOP_HOME=/usr/local/hadoop  
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin  
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop  
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  # 根据实际Java路径调整

执行source ~/.bashrc使配置生效，验证安装：

hadoop version

Hadoop集群核心配置

进入$HADOOP_CONF_DIR目录，修改以下核心配置文件：

core-site.xml（配置Hadoop默认文件系统）

<configuration>  
 <property>  
     <name>fs.defaultFS</name>  
     <value>hdfs://master:9000</value>  
 </property>  
 <property>  
     <name>hadoop.tmp.dir</name>  
     <value>/usr/local/hadoop/tmp</value>  
 </property>  
</configuration>

hdfs-site.xml（配置HDFS副本数与数据目录）

<configuration>  
 <property>  
     <name>dfs.replication</name>  
     <value>3</value>  
 </property>  
 <property>  
     <name>dfs.namenode.name.dir</name>  
     <value>/usr/local/hadoop/dfs/name</value>  
 </property>  
 <property>  
     <name>dfs.datanode.data.dir</name>  
     <value>/usr/local/hadoop/dfs/data</value>  
 </property>  
</configuration>

mapred-site.xml（配置MapReduce框架）

<configuration>  
 <property>  
     <name>mapreduce.framework.name</name>  
     <value>yarn</value>  
 </property>  
</configuration>

yarn-site.xml（配置YARN资源管理）

<configuration>  
 <property>  
     <name>yarn.nodemanager.aux-services</name>  
     <value>mapreduce_shuffle</value>  
 </property>  
 <property>  
     <name>yarn.resourcemanager.hostname</name>  
     <value>master</value>  
 </property>  
</configuration>

workers（配置从节点列表）
```
slave1  
slave2  
```

集群格式化与启动

首次启动前需格式化HDFS（在master节点执行）：

hdfs namenode -format

启动Hadoop集群：

# 启动HDFS  
start-dfs.sh  
# 启动YARN  
start-yarn.sh

通过jps命令验证进程：

master：NameNode、ResourceManager、SecondaryNameNode
slave：DataNode、NodeManager

访问Web界面（http://master:9870）查看HDFS状态，http://master:8088查看YARN资源管理页面。

Hadoop Linux配置需严格遵循系统初始化、环境依赖、参数调优的逻辑顺序，通过上述步骤，可搭建一个功能完整的Hadoop分布式集群，为后续大数据处理奠定基础，实际生产环境中，还需结合安全认证、日志监控等机制优化系统稳定性。

hadoop linux配置

Hadoop Linux配置详解

系统准备与环境初始化

JDK安装与验证

Hadoop下载与解压

环境变量配置

Hadoop集群核心配置

集群格式化与启动

相关推荐

互动交流中心

置顶推荐

最新文章

热门标签

网站统计

热门标签