Linux Hadoop 环境搭建与配置指南
Linux 作为 Hadoop 生态系统的基础运行平台,其稳定性和灵活性为大数据处理提供了可靠保障,搭建一个高效的 Linux Hadoop 环境,需要从系统准备、软件安装、配置优化到集群管理逐步推进,本文将详细介绍这一过程,帮助读者构建可扩展、高性能的 Hadoop 集群。

系统环境准备
在部署 Hadoop 前,需先完成 Linux 系统的基础配置,推荐使用 CentOS 7 或 Ubuntu 20.04 LTS 版本,确保内核版本与 Hadoop 兼容,关闭防火墙和 SELinux,避免网络访问限制:
sudo systemctl stop firewalld sudo systemctl disable firewalld sudo setenforce 0
配置主机名与 hosts 文件,确保集群内节点可通过主机名互相通信,在 /etc/hosts 中添加:
168.1.101 master
192.168.1.102 slave1
192.168.1.103 slave2
创建 Hadoop 专用用户(如 hadoop)并配置免密登录,提升集群管理效率:
sudo useradd -m hadoop sudo passwd hadoop su - hadoop ssh-keygen -t rsa ssh-copy-id hadoop@master ssh-copy-id hadoop@slave1 ssh-copy-id hadoop@slave2
JDK 安装与环境变量配置
Hadoop 依赖 Java 运行环境,推荐安装 OpenJDK 8 或 11,以 OpenJDK 8 为例:
sudo yum install java-1.8.0-openjdk-devel -y
安装完成后,配置 JAVA_HOME 环境变量,编辑 /etc/profile 或 ~/.bashrc 文件:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk export PATH=$JAVA_HOME/bin:$PATH
执行 source ~/.bashrc 使配置生效,并通过 java -version 验证安装。
Hadoop 下载与解压
从 Apache 官网下载稳定版本的 Hadoop(如 3.3.6),并解压至指定目录:

wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz tar -xzvf hadoop-3.3.6.tar.gz -C /opt/ sudo ln -s /opt/hadoop-3.3.6 /opt/hadoop sudo chown -R hadoop:hadoop /opt/hadoop
Hadoop 核心配置文件修改
进入 Hadoop 配置目录 /opt/hadoop/etc/hadoop,修改以下关键文件:
-
core-site.xml:配置 Hadoop 的默认文件系统名称(NameNode 地址):
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop/data/tmp</value> </property> </configuration>
-
hdfs-site.xml:配置 HDFS 副本数和数据存储目录:
<configuration> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/opt/hadoop/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/opt/hadoop/data/datanode</value> </property> </configuration>
-
mapred-site.xml:指定 MapReduce 框架为 YARN:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
-
yarn-site.xml:配置 YARN 资源管理器相关参数:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> </configuration>
-
workers:列出所有从节点主机名(每行一个):
slave1 slave2
集群启动与测试
首次启动前需格式化 NameNode(仅在首次部署时执行):

hdfs namenode -format
启动 HDFS 和 YARN 服务:
start-dfs.sh start-yarn.sh
通过 jps 命令验证进程:Master 节点应包含 NameNode、ResourceManager 和 SecondaryNameNode,从节点应包含 DataNode 和 NodeManager。
上传测试文件至 HDFS 并运行 MapReduce 示例:
hdfs dfs -mkdir -p /input hdfs dfs -put /opt/hadoop/etc/hadoop/*.xml /input hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output hdfs dfs -cat /output/*
集群管理与优化
- 日志监控:查看日志文件
/opt/hadoop/logs/诊断问题。 - 安全模式:通过
hdfs dfsadmin -safemode leave退出安全模式。 - 资源调优:根据节点配置调整
yarn.nodemanager.resource.memory-mb和mapreduce.map.memory.mb等参数。
通过以上步骤,即可构建一个功能完整的 Linux Hadoop 环境,后续可根据业务需求扩展集群规模,集成 Hive、HBase 等组件,进一步发挥大数据处理能力。

















