— 面向可靠性、可持续性与规模化的数据平台维护体系
本体系文档旨在从架构与方法论的高度,构建一套可复用、可扩展、跨技术栈的数据运维框架,帮助组织:
本体系覆盖: 平台层、存储层、计算层、数据层、任务层、资源层、指标层、流程层、治理层、自动化与智能化。
数据运维的本质不是“处理故障”,而是 持续对抗系统熵增。
系统熵增表现为:
数据运维的使命即是:
以自动化和体系化方式降低数据系统熵增,让系统保持长期高效运行。
整个体系由 七大能力域 + 三大支撑域 构成。
| 能力域 | 核心目标 | 内容范围 |
|---|---|---|
| 容量与资源治理 | 防止资源枯竭、提升利用率 | 存储、计算、队列、水位线 |
| 任务与作业维护 | 保证任务可靠性、可恢复性 | 调度、重试、依赖、SLI/SLO |
| 数据质量保障 | 保证数据可信 | 审计、校验、完整性 |
| 元数据与血缘治理 | 保证数据可用可管 | 数据目录、血缘、感知 |
| 性能与稳定性维护 | 维持长期高性能 | SQL 优化、热点识别、指标基线 |
| 成本与冷热数据管理 | 成本最优化 | 生命周期、分层存储、冷热分离 |
| 安全与访问控制运维 | 确保系统安全合规 | 权限、审计、加密、合规 |
| 支撑域 | 作用 |
|---|---|
| 自动化体系 | 消灭重复人工操作、防止人为错误 |
| 监控与可观测性体系 | 以数据驱动判断系统健康 |
| 标准化与流程体系 | 让运维动作规范化、可协作 |
关注: 存储膨胀、元数据膨胀、Shuffle 过载、Broker 压力、Checkpoint 老化。
House Keeping 不再是“清垃圾”,而是:
一套涵盖数据、任务、资源、存储、元数据的健康治理体系。
按维度拆解如下。
包含:
关注:
核心目标:
资源利用率最大化 + 任务 SLA 稳定化。
包括:
数据运维体系必须是 自动化优先:
构建数据平台专属的三大观测域:
CPU / IO / 内存 / 带宽 / 存储占用
运维必须被“制度化”,包括:
整个体系最终构建的是:
让大数据平台在 1 年、3 年、5 年后依旧高效、稳定、低成本运行的长期主义工程。
其核心原则: