服务器测评网
我们一直在努力

hadoop linux配置

Hadoop Linux配置详解

Hadoop作为分布式计算框架的核心,其Linux环境配置是部署的基础,本文将从系统准备、JDK安装、Hadoop部署、环境变量配置、集群配置及启动验证六个步骤,详细讲解Hadoop在Linux系统中的完整配置流程,确保环境稳定可靠。

系统准备与环境初始化

在配置Hadoop前,需确保Linux系统满足基本要求,推荐使用CentOS 7/Ubuntu 18.04及以上版本,关闭防火墙和SELinux(生产环境可配置规则),并确保节点间网络互通,执行以下命令初始化环境:

# 关闭防火墙
sudo systemctl stop firewalld && sudo systemctl disable firewalld  
# 关闭SELinux  
sudo setenforce 0  
# 配置主机名与hosts文件(以三节点为例:master、slave1、slave2)  
sudo hostnamectl set-hostname master  
echo "192.168.1.100 master" | sudo tee -a /etc/hosts  
echo "192.168.1.101 slave1" | sudo tee -a /etc/hosts  
echo "192.168.1.102 slave2" | sudo tee -a /etc/hosts  

配置免密登录(SSH),在master节点执行:

ssh-keygen -t rsa -f ~/.ssh/id_rsa -P ""  
ssh-copy-id master  
ssh-copy-id slave1  
ssh-copy-id slave2  

JDK安装与验证

Hadoop依赖Java环境,推荐安装JDK 1.8或OpenJDK 11,以OpenJDK 11为例:

# Ubuntu系统  
sudo apt update && sudo apt install openjdk-11-jdk -y  
# CentOS系统  
sudo yum install java-11-openjdk-devel -y  

安装后验证Java版本:

java -version  

若输出版本信息,则安装成功。

Hadoop下载与解压

从Apache官网下载稳定版Hadoop(如3.3.6),并解压至指定目录:

wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz  
sudo tar -zxf hadoop-3.3.6.tar.gz -C /usr/local/  
sudo ln -s /usr/local/hadoop-3.3.6 /usr/local/hadoop  
sudo chown -R $USER:$USER /usr/local/hadoop  

环境变量配置

编辑~/.bashrc文件,添加Hadoop相关环境变量:

export HADOOP_HOME=/usr/local/hadoop  
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin  
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop  
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  # 根据实际Java路径调整  

执行source ~/.bashrc使配置生效,验证安装:

hadoop version  

Hadoop集群核心配置

进入$HADOOP_CONF_DIR目录,修改以下核心配置文件:

  1. core-site.xml(配置Hadoop默认文件系统)

    <configuration>  
     <property>  
         <name>fs.defaultFS</name>  
         <value>hdfs://master:9000</value>  
     </property>  
     <property>  
         <name>hadoop.tmp.dir</name>  
         <value>/usr/local/hadoop/tmp</value>  
     </property>  
    </configuration>  
  2. hdfs-site.xml(配置HDFS副本数与数据目录)

    <configuration>  
     <property>  
         <name>dfs.replication</name>  
         <value>3</value>  
     </property>  
     <property>  
         <name>dfs.namenode.name.dir</name>  
         <value>/usr/local/hadoop/dfs/name</value>  
     </property>  
     <property>  
         <name>dfs.datanode.data.dir</name>  
         <value>/usr/local/hadoop/dfs/data</value>  
     </property>  
    </configuration>  
  3. mapred-site.xml(配置MapReduce框架)

    <configuration>  
     <property>  
         <name>mapreduce.framework.name</name>  
         <value>yarn</value>  
     </property>  
    </configuration>  
  4. yarn-site.xml(配置YARN资源管理)

    <configuration>  
     <property>  
         <name>yarn.nodemanager.aux-services</name>  
         <value>mapreduce_shuffle</value>  
     </property>  
     <property>  
         <name>yarn.resourcemanager.hostname</name>  
         <value>master</value>  
     </property>  
    </configuration>  
  5. workers(配置从节点列表)

    slave1  
    slave2  

集群格式化与启动

首次启动前需格式化HDFS(在master节点执行):

hdfs namenode -format  

启动Hadoop集群:

# 启动HDFS  
start-dfs.sh  
# 启动YARN  
start-yarn.sh  

通过jps命令验证进程:

  • master:NameNode、ResourceManager、SecondaryNameNode
  • slave:DataNode、NodeManager

访问Web界面(http://master:9870)查看HDFS状态,http://master:8088查看YARN资源管理页面。

Hadoop Linux配置需严格遵循系统初始化、环境依赖、参数调优的逻辑顺序,通过上述步骤,可搭建一个功能完整的Hadoop分布式集群,为后续大数据处理奠定基础,实际生产环境中,还需结合安全认证、日志监控等机制优化系统稳定性。

赞(0)
未经允许不得转载:好主机测评网 » hadoop linux配置