Schema 与数据类型设计

一、Schema 设计的第一性原理

1. 数据库的本质约束

关系型数据库本质上是：

**以页（Page）为最小 IO 单位的存储系统**
**以 B+Tree 为核心的数据组织结构**
**以磁盘 / 内存层级为主要性能瓶颈的系统**

由此引出三个稳定结论：

**IO 成本远高于 CPU 成本**
**顺序访问远快于随机访问**
**存储密度直接影响性能**

所有 Schema 设计规则，都是这三点的自然推论。

2. 局部性原理与 Schema 设计

局部性原理包括：

**时间局部性**：最近访问的数据更可能再次访问
**空间局部性**：物理位置相近的数据更可能一起访问

Schema 设计的目标之一，就是：

让“逻辑上相邻的数据”，在“物理上也尽可能相邻”

这直接影响：

主键选择
索引设计
数据类型大小
是否引入随机性

二、数据类型选择的设计模型

1. 数据类型选择的通用原则

原则 1：更小的通常更好

更小的数据类型 → 更高的页利用率
更高的页利用率 → 更少的 IO
更少的 IO → 更稳定的性能

前提不是“越小越好”，而是：

在满足业务语义和取值范围的前提下，选择最小的表达形式

原则 2：简单优于复杂

整型比较比字符串比较代价更低
定长数据比变长数据更容易被优化
简单类型更容易被索引、统计和预测

Schema 的复杂度，会被：

查询优化器
索引统计
执行计划

成倍放大。

2. NULL 的设计成本

NULL 并不是“没有值”，而是：

引入**三值逻辑（TRUE / FALSE / UNKNOWN）**
增加索引统计复杂度
增加比较和过滤成本

因此：

NULL 是一种**语义工具**，不是免费的占位符
当“无值”本身不具有业务意义时，应避免使用 NULL

3. 字符串类型的取舍模型

CHAR / VARCHAR / TEXT 的本质区别

CHAR：定长，空间换时间
VARCHAR：变长，时间换空间
TEXT / BLOB：非结构化大对象，不参与常规索引和优化路径

选择依据不是“最大长度”，而是：

是否需要参与索引
是否高频访问
是否需要整体加载

4. 时间类型的语义边界

DATETIME：
- 与时区无关
- 适合表达“业务时间”
TIMESTAMP：
- 与系统时区相关
- 适合表达“系统事件时间”

时间类型的选择，本质是：

你是在记录认为“绝对不变”的事实，还是“环境相关”的事件

三、主键与索引的架构取舍

1. 主键的核心职责

主键不是业务概念，而是：

行的物理定位锚点
聚簇索引的组织基础
所有关联索引的隐式依赖

因此，主键的核心目标是：

稳定、有序、紧凑

2. 代理主键 vs 自然主键

代理主键

与业务解耦
易于演进
有利于索引局部性

自然主键

表达业务语义
易受业务变化影响
通常不具备良好的物理特性

在工程实践中：

代理主键几乎总是更优的基础选择

3. 为什么随机字符串主键是性能杀手

随机分布破坏 B+Tree 的顺序性
导致频繁页分裂
降低缓存命中率
放大写放大效应

这是局部性原理在 Schema 层面的直接体现。

四、范式、反范式与数据冗余

1. 范式化的价值

减少冗余
降低一致性维护成本
更清晰的数据边界

代价是：

查询需要 JOIN
读路径更长

2. 反范式的工程动机

反范式不是“偷懒”，而是：

为读性能付出存储和写复杂度
为系统整体吞吐服务

典型场景包括：

高频查询
实时统计
聚合结果复用

3. 冗余的治理前提

所有冗余设计，必须回答三个问题：

谁是权威数据源
通过什么机制保持一致
出现不一致时如何修复

否则，冗余就是技术债。

五、Schema 演进与治理

1. ALTER TABLE 的真实成本

ALTER TABLE 的本质是：

重写数据
重建索引
阻塞或影响在线流量

Schema 变更不是 DDL 操作，而是：

一次系统级变更行为

2. 演进策略

小表：直接变更
大表：
- 新表构建
- 双写或切流
- 数据校验

目标不是“快”，而是“可控”。

六、结语：Schema 是系统设计的一部分

Schema 不是静态结构，而是：

性能模型的体现
架构权衡的结果
业务演进的约束条件

一个好的 Schema 设计，体现的不是技巧，而是：

对系统本质约束的尊重

关联内容（自动生成）

[/中间件/数据库/数据类型.html](/中间件/数据库/数据类型.html) 详述了数据库数据类型的统一抽象模型，与本文档的数据类型选择原则相互补充
[/中间件/数据库/数据库系统/数据库设计.html](/中间件/数据库/数据库系统/数据库设计.html) 从数据库设计的第一性原理出发，探讨了现实建模与约束形式化，与本文的Schema设计思想形成呼应
[/中间件/数据库/索引.html](/中间件/数据库/索引.html) 详述了各种索引结构（B+树、哈希、LSM树等）及MySQL索引优化策略，索引设计与Schema设计密切相关
[/中间件/数据库/mysql/查询优化.html](/中间件/数据库/mysql/查询优化.html) 涵盖了查询优化的具体策略、执行流程和性能瓶颈分析，Schema设计直接影响查询性能
[/中间件/数据库/数据库优化.html](/中间件/数据库/数据库优化.html) 涵盖了更广泛的数据库优化策略，包括数据类型优化、索引优化等，与本文形成互补
[/中间件/数据库/mysql/存储引擎.html](/中间件/数据库/mysql/存储引擎.html) 介绍了不同存储引擎的特性，Schema设计与存储引擎的选择密切相关
[/DSL/SQL.html](/DSL/SQL.html) 涵盖了SQL语言中的数据类型与模式定义，是Schema设计的具体实现工具
[/数据技术/数据建模.html](/数据技术/数据建模.html) 数据建模是数据库设计的前置步骤，提供了数据库设计的理论基础，与Schema设计紧密相关