Linux运维规范概述
Linux运维规范是保障系统稳定、安全、高效运行的基础准则,涵盖从系统初始化到日常维护、故障处理的全流程,规范的制定旨在统一操作标准、降低人为失误、提升团队协作效率,同时确保符合行业合规要求,本文将从账号管理、系统配置、安全防护、日志管理、备份策略、故障处理六个核心维度,详细阐述Linux运维的具体规范。

账号与权限管理
1 账号生命周期管理
- 创建规范:所有账号需通过工单系统申请,注明使用人、部门、权限范围及有效期,经运维负责人审批后创建,禁止创建无明确用途的测试账号,测试账号需在24小时内删除。
- 权限分级:采用最小权限原则,账号分为超级管理员(root)、普通管理员、普通用户三类,超级管理员仅限系统维护使用,普通管理员通过sudo授权执行特定命令,普通用户禁止提权。
- 禁用与注销:员工离职或账号超期后,需在24小时内禁用账号,30天后彻底删除,长期不活跃账号(90天未登录)需定期审计并清理。
2 密码策略
| 要求项 | |
|---|---|
| 密码复杂度 | 长度≥12位,包含大小写字母、数字及特殊字符,禁止使用连续字符或常见词汇。 |
| 密码更新周期 | 普通用户每90天强制更新,超级管理员密码每60天更新。 |
| 密码存储 | 禁止明文存储密码,需通过hash加密(如SHA-256),并配合双因素认证(2FA)。 |
系统配置标准化
1 基础系统配置
- 时区与语言:系统时区统一设置为
Asia/Shanghai,语言环境为en_US.UTF-8,避免因时区差异导致日志时间错误。 - 文件描述符:通过
/etc/security/limits.conf配置文件描述符限制,普通用户≥1024,关键服务进程≥65535。 - 内核参数:根据业务需求调整内核参数,如
net.core.somaxconn(默认128,高并发服务建议调整为4096)、vm.swappiness(默认60,数据库服务器建议调整为10)。
2 服务与进程管理
- 服务自启动:使用
systemctl管理服务,关键服务(如Nginx、MySQL)需设置为开机自启,并配置Restart=always确保异常自动恢复。 - 进程监控:通过
supervisor或systemd管理多进程应用,避免进程僵死,禁止使用nohup后台运行关键业务,需通过进程管理工具统一管控。
安全防护体系
1 网络安全
- 防火墙配置:默认启用
firewalld或iptables,仅开放业务必需端口(如Web服务的80/443端口),禁止直接暴露管理端口(如22、3306)。 - SSH安全:禁止root用户直接SSH登录,修改默认端口(如2222),启用密钥认证(禁用密码登录),并配置
MaxAuthTries=3防止暴力破解。
2 系统加固
- 定期更新:通过
yum或apt每周更新系统补丁,高危漏洞需在24小时内修复,更新前需在测试环境验证,避免生产环境故障。 - 入侵检测:部署
fail2ban拦截异常IP(如SSH暴力破解),使用rkhunter或lynis定期扫描系统后门,日志保存≥90天。
3 数据安全
- 敏感信息保护:数据库密码、API密钥等敏感信息需加密存储,通过
Ansible Vault或HashiCorp Vault管理,禁止硬编码在配置文件中。 - 最小化安装:新系统安装时仅选择必需组件,避免安装
telnet、rsh等不安全服务。
日志与监控
1 日志管理规范
- 日志分级:系统日志(
/var/log/messages)、应用日志(如Nginx的access.log)、安全日志(/var/log/secure)需分离存储,避免日志覆盖。 - 日志保留:所有日志保留≥90天,关键业务日志(如支付、交易)需归档至独立存储,并支持快速检索。
- 日志审计:每周通过
ELK Stack(Elasticsearch、Logstash、Kibana)或Graylog分析日志,重点关注异常登录、失败操作等高危行为。
2 监控指标
| 监控类型 | 关键指标 |
|---|---|
| 系统监控 | CPU使用率、内存占用、磁盘I/O、网络带宽、负载(load average) |
| 服务监控 | 端口状态、进程存活数、响应时间(如HTTP状态码) |
| 业务监控 | 交易量、错误率、用户访问量(需结合APM工具如New Relic) |
备份与恢复
1 备份策略
- 备份范围:系统配置文件(
/etc目录)、业务数据、数据库(MySQL需开启binlog)、虚拟机镜像(如KVM的qcow2文件)。 - 备份周期:
- 全量备份:每周日凌晨2点执行,保留4周;
- 增量备份:每日凌晨1点执行,保留7天;
- 实时备份:数据库采用主从复制,关键业务数据通过
rsync实时同步至备用服务器。
2 恢复演练
- 每月进行一次恢复演练,验证备份数据的可用性,记录恢复时间(RTO)和恢复点目标(RPO)。
- 备份脚本需加入异常告警,如备份失败时通过邮件、钉钉通知运维人员。
故障处理流程
1 故障分级
| 级别 | 定义 | 响应时间 | 处理要求 |
|---|---|---|---|
| P1 | 核心业务中断 | 5分钟 | 立即恢复,24小时内提交故障报告 |
| P2 | 功能异常,影响部分用户 | 30分钟 | 2小时内恢复,48小时分析根因 |
| P3 | 非核心问题 | 2小时 | 8小时内解决,无需上报 |
2 处理原则
- 先恢复,后排查:优先恢复业务,再定位故障原因,避免长时间影响用户体验。
- 文档化:每次故障需记录处理过程、根因分析及改进措施,形成知识库,避免重复故障。
Linux运维规范是保障企业数字化业务稳定运行的基石,通过标准化、流程化的管理,可有效降低系统风险,提升运维效率,运维团队需定期更新规范内容,结合新技术(如容器化、自动化运维)持续优化,确保规范适配业务发展需求,最终实现“安全、高效、可控”的运维目标。


















