cdh虚拟机安装
环境准备与虚拟机配置
在开始CDH(Cloudera Distribution including Hadoop)虚拟机安装前,需做好充分的环境准备,确保硬件与软件资源满足需求,建议使用VMware Workstation或VirtualBox作为虚拟化平台,推荐分配至少4GB内存、2个CPU核心及50GB磁盘空间(根据集群规模可扩展),操作系统选择CentOS 7.x或Red Hat Enterprise Linux 7.x,确保系统为最小化安装,并关闭防火墙与SELinux,以避免网络权限问题。

网络配置是关键步骤,建议采用NAT模式或桥接模式,确保虚拟机可访问外网以便下载依赖包,若为生产环境,推荐使用静态IP地址,例如设置虚拟机IP为192.168.1.100,子网掩码255.255.255.0,网关192.168.1.1,DNS服务器8.8.8.8,配置主机名与hosts文件,例如在/etc/hosts中添加168.1.100 cdh-master,便于后续集群节点间通信。
基础软件依赖安装
CDH的运行依赖多个基础软件包,需提前在虚拟机中安装,更新系统并安装必要工具:
sudo yum update -y sudo yum install -y wget vim net-tools java-1.8.0-openjdk-devel
Java环境是Hadoop的运行基础,需确保JDK版本为1.8(CDH 6.x系列推荐),安装后可通过java -version验证,并配置JAVA_HOME环境变量,通常指向/usr/lib/jvm/java-1.8.0-openjdk。
需安装CDH所需的依赖库,如Python 2.7(部分组件依赖)、NTP服务(时间同步)以及SSH免密登录工具,配置SSH免密登录时,执行以下命令:
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys
确保可通过ssh localhost无密码登录,避免后续集群部署时的交互式输入。
CDH安装包下载与仓库配置
CDH支持通过Cloudera Manager或手动安装两种方式,此处以手动安装为例,下载CDH的本地仓库包,可访问Cloudera官网或使用镜像源(如清华开源镜像站),以CDH 6.3.4为例,下载以下RPM包:
cloudera-manager-repo-*.rpm(仓库配置包)parcels目录下的CDH parcels文件(如CDH-6.3.4-1.cdh6.3.4.p0.1537287-el7.parcel)
安装仓库配置包并启用Cloudera官方仓库:

sudo rpm -Uvh cloudera-manager-repo-*.rpm sudo yum clean all sudo yum update -y
若使用离线安装,需将下载的parcels文件上传至虚拟机指定目录(如/opt/cloudera/parcels),并配置HTTP服务供节点访问。
单节点集群部署(以HDFS为例)
为验证安装环境,可先部署单节点Hadoop集群,安装Hadoop相关组件:
sudo yum install -y hadoop-hdfs-namenode hadoop-hdfs-datanode hadoop-yarn-resourcemanager hadoop-yarn-nodemanager
配置核心文件,包括core-site.xml、hdfs-site.xml和yarn-site.xml,以hdfs-site.xml为例,配置NameNode与DataNode存储目录:
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hdfs/datanode</value>
</property>
创建目录并设置权限:
sudo mkdir -p /data/hdfs/{namenode,datanode}
sudo chown -R hdfs:hdfs /data/hdfs
初始化HDFS文件系统并启动服务:
sudo -u hdfs hdfs namenode -format sudo systemctl start hadoop-hdfs-namenode hadoop-hdfs-datanode
通过jps命令验证进程,NameNode节点应包含NameNode和DataNode进程。
多节点集群扩展(可选)
若需构建多节点集群,可克隆虚拟机作为Slave节点(如cdh-node1、cdh-node2),并修改IP与主机名,在Master节点配置免密登录至所有Slave节点,然后分发Hadoop配置文件,在workers文件中添加Slave节点主机名:

echo "cdh-node1" >> /etc/hadoop/conf/workers echo "cdh-node2" >> /etc/hadoop/conf/workers
在所有节点启动Hadoop服务,并通过Web UI(如NameNode的http://cdh-master:9870)监控集群状态。
常见问题与优化建议
安装过程中可能遇到以下问题:
- 内存不足:调整JVM参数,在
hadoop-env.sh中减小HADOOP_HEAPSIZE值。 - 磁盘空间不足:扩展虚拟机磁盘容量,并确保DataNode目录有足够剩余空间。
- 服务启动失败:检查日志文件(
/var/log/hadoop-hdfs/),定位权限或配置错误。
优化方面,建议调整HDFS块大小(如dfs.blocksize=128m)以提升小文件性能,并启用YARN的内存资源调度,避免资源争用。
通过以上步骤,即可完成CDH虚拟机的安装与基础集群部署,后续可根据业务需求添加Spark、HBase等组件,构建完整的数据中台平台。




















