数据分层是企业数据治理体系的核心组成部分,与元数据管理共同构成数据资产化的底层结构。
比喻:元数据是图书馆的索引卡片,数据分层是图书的分类系统。无索引和分类,再多的数据也无法高效使用。
数据分层的目标是将数据从混乱状态转向有序体系,实现规范化管理、高复用性和一致性保障。
数据分层的核心本质:
按照加工程度和使用目的,将数据组织成不同层次,实现规范化管理、复用性提升和一致性保证。
核心价值:
| 价值点 | 描述 |
|---|---|
| 降低资源冗余 | 避免重复计算与存储,提高系统效率 |
| 保证数据一致性 | 统一计算口径与定义,确保数据准确性 |
| 提升开发效率 | 可复用已有数据层,减少重复开发 |
| 降低维护成本 | 屏蔽底层变化对上层影响,实现变更隔离 |
| 构建有序数据体系 | 将企业数据从混沌走向有序,提高管理和决策能力 |
graph TD
A[数据源层] --> B[数据采集层]
B --> C[接入与传输层]
C --> D[数据存储层]
D --> E[数据计算层]
E --> F[数据应用层]
G[支撑系统层] -.-> D
G -.-> E
G -.-> F
| 层级 | 功能 | 说明 |
|---|---|---|
| 数据源层 | 数据输入 | 包括结构化、半结构化、非结构化数据 |
| 数据采集层 | 数据接入 | 日志代理、API抓取、消息队列等 |
| 接入与传输层 | 数据清洗与传输 | 初步清洗和转换,Kafka/Pulsar等 |
| 数据存储层 | 数据持久化 | 离线(HDFS/对象存储)、实时(KV/内存) |
| 数据计算层 | 数据加工与聚合 | 批处理、流处理、流批一体 |
| 数据应用层 | 数据输出 | 报表、BI、OpenAPI、AI接口 |
| 支撑系统层 | 元数据、监控等 | 元数据、调度、监控、告警、安全审计 |
| 层级 | 全称 | 功能 | 特点 |
|---|---|---|---|
| ODS | Operational Data Store | 原始数据存储 | 保持原貌,基础清洗 |
| DWD | Data Warehouse Detail | 明细层 | 按模型清洗、规范化整合 |
| DWS | Data Warehouse Summary | 汇总层 | 轻度汇总,生成常用指标 |
| ADS | Application Data Store | 应用层 | 面向具体场景,直接使用 |
graph TD
A[原始数据源] --> B[ODS层]
B --> C[DWD层]
C --> D[DWS层]
D --> E[ADS层]
F[报表应用] --> E
G[分析应用] --> E
H[推荐系统] --> E
| 能力 | 描述 |
|---|---|
| 数据规范化管理 | 按预定义模型组织数据 |
| 数据复用 | 分层设计实现逻辑与数据复用 |
| 一致性保障 | 统一计算口径,避免不一致结果 |
| 依赖管理 | 管理层级间依赖关系 |
| 变更隔离 | 屏蔽底层变化对上层影响 |
| 质量控制 | 分层实施数据质量校验 |
graph LR
A[高频访问数据] --> B[内存/列式存储]
A --> C[低频访问数据] --> D[对象存储]
B --> E[实时分析]
D --> F[历史分析]
| 分类维度 | 类型 | 描述 |
|---|---|---|
| 数据加工层次 | 原始层 | 原始数据基础清洗 |
| 明细层 | 结构化处理,保留详细信息 | |
| 汇总层 | 聚合计算,生成指标 | |
| 应用层 | 高度定制化,面向特定应用 | |
| 数据存储方式 | 热数据 | 高频访问,高性能存储 |
| 温数据 | 中频访问 | |
| 冷数据 | 低频访问,低成本 | |
| 业务用途 | 共享层 | 跨业务公共数据 |
| 领域层 | 特定业务域数据 | |
| 应用层 | 面向具体应用 |
| 方向 | 描述 |
|---|---|
| 智能化 | 手工定义→智能推荐,静态→动态自适应,规则驱动→模型驱动 |
| 实时融合 | 批处理→流批一体,离线→实时,静态架构→动态架构 |
| 标准化 | 企业标准→行业标准,技术导向→业务导向,静态→可配置 |
graph TD
subgraph 数据源与采集
A[数据源层] --> B[采集层]
B --> C[接入与传输层]
end
subgraph 存储与计算
C --> D[存储层]
D --> E[计算层]
end
subgraph 应用与输出
E --> F[应用层]
end
subgraph 支撑系统
G[元数据/监控/调度/安全] -.-> D
G -.-> E
G -.-> F
end