AIOps

一、AIOps 的第一性原理

1. 运维问题的本质

所有运维问题,本质上都可以归结为三个核心问题:

  1. **系统状态是否偏离稳态**(异常发现)
  2. **偏离由什么因素导致**(根因定位)
  3. **应该采取什么行动恢复或优化系统**(决策与执行)

AIOps 的价值不在于“使用了 AI 算法”,而在于:

通过数据驱动的方式,构建“感知 → 认知 → 决策 → 行动 → 反馈”的闭环系统, 将原本依赖人工经验的运维活动,转化为可建模、可自动化、可治理的系统能力。


二、AIOps 的统一系统模型

1. 闭环架构抽象

可观测数据
   ↓
状态建模
   ↓
异常识别
   ↓
根因分析
   ↓
决策生成
   ↓
行动执行
   ↓
反馈学习

这一闭环构成了 AIOps 的最小完备系统。


2. 能力分层模型

层级 能力定位 核心问题
感知层 可观测性 系统发生了什么
认知层 状态与因果建模 为什么会这样
决策层 策略与行动建议 应该怎么做
执行层 自动化操作 如何快速执行
治理层 人机协同与风险控制 是否可信、可控

三、故障发现:从阈值判断到状态识别

1. 问题本质

故障发现的本质,是判断系统状态是否偏离其正常运行分布。

难点不在于“是否有指标”,而在于:


2. 方法论抽象

方法族 适用问题 思想本质
周期性分析 是否存在稳定节律 正常即规律
统计边界 是否越界 稳态分布
异常检测 是否偏离群体 少数即异常
相似度判断 是否与历史一致 模式相似性

3. 算法示例(实现层)

算法是可替换的,状态建模思想是稳定的


4. 多指标联合判断

当系统状态由多个指标共同决定时,单指标告警不再成立。

本质做法是:

通过多信号融合,对“系统状态”进行分类或概率判断。

实现方式包括:


四、问题定位:从相关性到因果性

1. 问题本质

问题定位的本质,是在多维系统中找到“变化的主导因子”。


2. 多维归因分析(相关性层)

方法 适用场景 核心思想
Attributor KPI 波动分析 惊喜度与解释力
Divisia 贡献拆解 总量分解
HotSpot 拓扑场景 Ripple Effect

这些方法解决的是:

“哪些维度最可能与问题相关”


3. 因果推断(因果层)

在复杂调用链中,仅靠相关性无法定位根因。

方法 解决问题
倾向得分匹配 消除选择偏差
双重差分 干预效果评估
工具变量 隐变量干扰

因果推断的引入,标志着 AIOps 从“经验驱动”迈向“科学决策”。


4. 重复问题识别

通过历史故障特征建模,实现:

已知问题的快速复用与自动化处置

本质是:


五、容量预测:从经验预估到模型驱动

1. 问题本质

容量问题的本质,是在不确定性下进行资源配置决策。


2. 流量预测(时间维度)

预测的不是“精确值”,而是:

未来状态的概率区间


3. 资源画像(结构维度)

通过回归模型建立:

流量 → 资源消耗的映射关系

这是容量规划的基础模型。


4. 资源分配(决策维度)

资源分配本质是一个优化问题:

可采用:


六、变更管理:从人工检查到智能守护

1. 问题本质

变更是系统不稳定性的主要来源。

AIOps 的目标不是“避免变更”,而是:

降低变更的不确定性风险。


2. 核心能力抽象

能力 作用
自动指标检查 降低人工成本
对照分析 识别异常波动
依赖影响分析 防止级联故障
统计显著性检测 量化风险

七、智能决策:人机协同的关键一环

1. 决策的本质

智能决策不是“替代人”,而是“增强人”。


2. 决策模式分级

级别 说明
L1 决策建议(人工执行)
L2 半自动执行(人工确认)
L3 全自动闭环

3. 治理与可信性

任何自动化决策都必须具备:

否则,AIOps 将成为系统性风险来源。


八、总结:AIOps 的长期价值

真正成熟的 AIOps,关注的是:

关联内容(自动生成)