数据分析
商业智能(Business Intelligence,BI)、数据仓库(Data Warehouse,DW)和数据挖掘(Data Mining,DM)三者之间的关系:
数据仓库是一个集成、主题化、稳定的数据存储区域,为BI和DM提供数据支持。BI通过可视化分析和数据报表等方式,将数据转化为有价值的信息,帮助企业管理层和决策者快速准确地获得洞察,支持企业决策。而DM是从数据中自动提取模式、趋势和关系的过程,用于发现数据的隐含规律和预测未来走向
数据采集 -> 数据挖掘 -> 数据可视化
- 对于大数据:熵很小,使用数据挖掘算法
- 对于小数据:熵很大,了解背后规律
方法论
- 5W2H
- SWOT
- 逻辑树
分析方法
- 趋势分析:一般用于核心指标的长期跟踪,可以看数据有那些趋势上的变化,有没有周期性,有没有拐点等,这些异常情况就是分析的切入点
- 留存分析:一种用来分析用户参与情况/活跃程度的分析模型
- 多维分解:通过不同的维度对于数据进行分解,以获取更加精细的数据洞察
- AB测试
- 用户分群:针对符合某种特定行为或背景信息的用户进行特定的优化和分析,将多维度和多指标作为分群条件
- 漏斗分析:按照已知的转化路径,借助漏斗模型分析总体和每一步的转化情况
- 对比分析:将两个或两个以上的数据进行比较,分析它们的差异,以认识被研究对象的规律,如规模、速度等,并做出正确的判断和评价
数据指标体系
数据指标:将某个事件量化并形成数值来衡量目标
数据指标可以被用来选出判断标准,并给出最终结论。数据指标体系是从特定角度分析业务得到数据指标
实现数据指标体系,根据优选级选择重要的数据指标,保证效率,在迭代中反馈与修正,另外,指标服务于业务,当业务发生变化,指标体系也会收到变动的影响
指标体系类型
- 战略型:统观全局高度汇总的数据指标
- 策略型:策略指标实现企业的既定战略分解,同时找出潜在机会来更好的实现这个目的
- 运营型:运营型指标监测和管理一线工作人员的日常活动
- 分析型:用于业务深入探究
体系搭建
最重要的是了解业务,整个流程,盈利模式,以及实现这个业务流程的各个组织机构,串连各个组织机构,发现数据指标
指标分类
- 基础指标:基础指标是从粒度最细的业务明细数据中做一层聚合,只进行最基础的统计加工,能够反映总体业务运营状况。同时也是数量最为庞大的指标群体
- 衍生指标:衍生指标是在基础指标基础上增加一些限制条件,用于描述特定的业务场景,可以有一些专属用途
- 计算指标:计算指标是在基础指标和衍生指标基础上计算得到,例如率值、密度等等,这些用于计算的元素都来自于原生和衍生指标,都需要有明确的业务含义
- 综合指标:在前三种指标进行更一步的抽象画,如多个指标的线性化,或者使用数学工具进行建模
指标拆解
- 维度拆分:如区域、标签、时间、业务情况...
- 场景拆分:总指标 = 各场景下指标相加
- 关系拆分:一个指标可以由其他指标推导得到
检验
- 可执行可描述:设计出的指标能解决问题也能被技术实现
- 完整:没有遗漏核心点,不重不漏
- 优先级:按照优先级确定先实现哪些指标
常见问题
- 使用的指标并不能指导业务行动
- 指标没有判断标准,不知道好坏
- 对于抽象的指标,进行了不合适的拆分,瞎拆分子指标
- 没有按照业务流程构造指标,只是堆砌数据,不能指导业务
- 没有根据业务选维度,无脑加维度
流量分析
流量分析是分析如何获取如何用户,哪里获取用户的一个数据分析活动,其最终目是为了获取商业价值,提升用户获取的 ROI,占领市场
做流量分析之前,首先需要明确的是公司的业务面向的用户群体,2C还是2B,大B还是小B,产品形态是什么,网站app还是咨询服务,所在哪个行业,游戏还是电商,是如何盈利的,是免费增值还是会员制还是流量变现
流量渠道
- 传统方式:地推、电销、会展、上门拜访、线下拦截...
- 付费渠道:搜索竞价、信息流、软文、传统广告、流量联盟...
- 社交渠道:社群营销、病毒营销
- 内容渠道:自媒体、短视频、直播
- 其他渠道:SEO、...
流量成本
= 时间成本 + 资源成本 + 人力成本 + 资金成本
分析角度
- 观察流量规律,便于活动安排、服务调整
- 发现流量异常,分析异常原因并及时调整
- 观察流量结构,分析其合理性,并作出调整
- 追踪流量情况,衡量活动或者调整效果
分析的问题
- 用户的来源
- 用户的诉求
- 不同来源的用户,表现有什么差异
- 如何设计流量入口以提升 ROI
关注指标
- 各渠道新增用户量、人均获客成本
- 用户产品的使用情况
- 支出收入相关指标
分析方法
- 渠道分析:不同的渠道的带来了多少流量
- 转化分析:投入的资源得到了多少流量
- 价值分析:投入的资源带来了多少的实际收入
- 异动分析:投入的资源不变,流量突然变多了或者变少了
产品分析
主要分为功能分析(行为流程、业务流程)与交互视觉分析,分析产品以优化业务,提升用户使用体验。在进行产品分析时,首先需要明确目的,根据目的确定主要问题,其中最主要的是明白功能为谁设计,他们何时用,怎么用
行为流程是用户侧的行为,业务流程是产品侧提供的功能,所以可以从行为流程与业务流程分析出需要关注的问题,如产品侧如何实现功能,异常情况如何处理等
当进行对以上流程的分析之后,就能更透彻地理解业务全流程,并在此基础上,梳理出关键流程、主流程
关注的问题
- 业务逻辑是最优的吗
- 哪些地方还可以优化
- 新功能对用户产生了什么影响
分析内容
- 对于视觉交互的分析,目的是最大限度的满足用户的感官体验与使用体验
- 对于主流程的分析优化,最重要的是降低用户在主流程的交互时间
- 对于用户行为的分析,优化的目的是减少产品功能冗余,提高用户的使用效率
- 对于产品价值分析,目的是满足用户在产品内的各种诉求
- 对于商业价值分析,目的是为了利润最大化
常见误区
- 大而全无分析:简单功能罗列,没有可落地的参考建议
- 数据异常丰富:虽然引用了很多数据,但没有建议
- 过于关注视觉与交互
- 无结论:单纯描述表面现象,没有分析优点缺点,哪里值得学习改进
用户增长分析
做用户增长分析的目的是,提升用户的数量,用较少成本提升数量,同时进行精细化运营,提升用户价值,实现高质量发展
一种模型是 AARRR,通过数据分析这个模型各个阶段的关键指标,发现问题、解决问题
用户行为分析
用户行为分析是从各个维度去看用户对于产品在某些指标上的反馈,通过对用户行为的分析是实现数据驱动产品、商业决策的重要依据
行为事件分析
行为事件分析方法主要用于研究某行为事件的发生对产品的影响以及影响程度
对某一具体行为,分析导致该行为的原因,或针对现象进行解释可能出现该现象的行为
页面点击分析
点击分析被应用于显示页面区域中不同元素点击密度的图示,可以精准评估用户与产品交互背后的深层关系,实现产品的跳转路径分析,完成产品页面之间的深层次的关系需求挖掘与其他分析模型配合,全面视角探索数据价值直观的对比和分析用户在页面的聚焦度、页面浏览次数和人数以及页面内各个可点击元素的百分比
行为路径分析
通过分析行为路径,发现潜在的行为路径与期望路径之间的偏差,及时优化偏差,缩短路径
用户留存分析
检验用户留存质量,一般是在各类活动中相关分析
漏斗模型分析
根据用户的导入、留存的一个个环节,分析每层漏斗的转化情况,发现潜在问题
健康度分析
基于用户行为数据综合考虑的核心指标,体现产品的运营情况,为产品的发展进行预警
用户标签体系
用户标签体系是构建用户画像的一个重要手段
可从如下角度进行对用户的标签构建:
- 用户自身属性:性别、年龄、省份...
- 活跃特征:从时间维度归纳用户活跃、沉默期
- 用户行为特征
- 用户等级:RFM模型、用户生命周期
运营分析
运营活动的目标:品牌 => 用户数量质量 => 纯收入
用户运营
- 拉新
- 激活:唤醒休眠用户
- 召回:召回流失用户
数据分析在用户运营的作用是选取评估指标、进行数据处理、构建模型得到分析报告
数据分析思维
- 数学思维
- 逆向思维
- 结构化思维
- 假设演绎思维
- 指标化思维
- 维度分解思维
均值
平均值容易受到极端值的影响,只有在数据呈均匀分布或者正态分布的情况下才会有意义
辛普森悖论指出,有的时候,在分组比较中占优势的一方,在总评中反而可能是失势的一方,平均值需要看它的分组构成,而不是简单地用平均值去代表所有的整体
大数定律与小数陷阱
- 大数定律:当随机事件发生的次数足够多(趋向无穷)时,发生的频率才会趋近于预期的概率
- 小数陷阱:每次的事件其实和上一次的事件是独立且随机的,某些事件在刚开始概率更高,并不意味着后面发生的概率会降低
期望值
反映在大数定律下多次执行某件事情之后,得到的一个最可能的收益结果
随机对照试验
通过多组随机试验来验证一个理论和假设是否真实,AB测试就是一种随机对照试验
直方图与幂分布
- 直方图是展示数据的分布,而柱状图是比较数据的大小
从直方图体现出来呈指数下降或者上升的分布形式,叫做“幂律分布”
帕累托法则:二八定律
拉普拉斯分布
跟正态分布相反,这种分布从左到右,斜率先缓慢增大再快速增大,到达最高点后变为负值继续先快速减小,最后再缓慢地减小
这种分布在资源导向的场景比较多见,比如股市、房价,越塔尖的个体越具有资源吸附能力
散点图与相关性
- 散点图反映的是两个变量之间的关系
- 为了能够明确展示数据之间的趋势,Y 轴必须要从零开始
- 为了表示趋势的清晰,一般都会添加一条趋势线来表明背后的规律
一些散点图的分布规律:
- 正相关、负相关
- 指数相关
- 正U分布和反U分布:当达到一定程度,资源投入越多、获得收益反而更少
- 无相关
- 更为复杂的情况
误区:
- 误判趋势:数据整体还不够完整,错误判断了这个数据的未来增长趋势
- 德克萨斯枪手谬误:数据是否代表了整体
- 幸存者偏差:在分析散点图的时候看到了规律,还要了解最终这个规律形成的原因和背后的场景
标准差
代表一组数值和平均值相比分散开来的程度。也就是说,标准差大代表大部分的数值和平均值差异比较大,标准差小代表这组数字比较接近平均值
标准误差代表一种推论的估计,它反映的是多次抽样当中样本均值之间的离散程度
数据抽样
小数据抽样:
- 简单随机抽样:从总体 N 个单位中随机地抽取 m 个单位作为样本,使得每一个样本被抽中的概率相同
- 系统抽样:依据一定的抽样距离,从整体中抽取样本,即限定每轮抽样的数据范围都不同
- 分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,从而保证样本的结构接近于总体的结构
- 整群抽样:将总体中若干个单位合并为组(这样的组被称为群),抽样时直接抽取群,然后对所选群中的所有单位实施调查
分层抽样是先分层再从各层抽样本,整群抽样是先分群再抽一个群调查
大数据抽样:
- 蓄水池算法
- 过采样
- 欠采样
public class ReservoirSampling { private int[] ALL; // 整体的水池中的数据 private final int N = 100000; // 整体数据规模 private final int K = 1000; // 水池规模 private Random random = new Random(); public void setUp() throws Exception { ALL = new int[N]; for (int i = 0; i < N; i++) { ALL[i] = i; } } private int[] Sampling(int K) { int[] Pool = new int[K]; for (int i = 0; i < K; i++) { // 前面K条数据直接进入水池 Pool[i] = ALL[i]; } for (int i = K; i < N; i++) { // K + 1个元素开始进行概率采样 int r = random.nextInt(i + 1); //这就是K/N的概率 if (r < K) { Pool[r] = ALL[i]; //如果被选中了,那么这条数据就被从蓄水池中挤出来,新数据进去 } } return Pool; }}
指数
指数 = 变量值/标准值 x 100
指数公式本身很简单,关键在于指数公式的背后,要如何去制定一个能够保持指数有效性的规则
从股市上证沪深指数,到互联网用户忠诚指数,都需要定义解释一系列规则来创建这样的一个指数
要制定某个指数,比方说设定 KPI 的时候,我们要注意不要光看公式的建立,而是要把一系列定义调整的制度算法规定出来
回归
- [线性回归](/数学/线性代数.html#线性回归)
- 逻辑回归:广泛用于做分类问题,也就是把“成功 / 失败”“哪一种颜色”这类问题变成线性回归的样子
- 多项式回归:可能出现多个指数的数据,这种回归最佳拟合的线也不是直线,很可能是一个曲线
- 均值回归:实际发生的数据比理论上的预测更加接近平均值,整体趋势上会慢慢向一个平均值发展
两个变量之间有回归逻辑,不代表着两个变量之间有因果逻辑
马尔可夫链
- 马尔可夫链蒙特卡罗算法(MCMC):通过多次独立重复的随机实验来模拟确定性的概率分布
用数据说话
问题确定
和利益无关的问题都不值得做数据分析,值得的一个是带来更多的收入,一个是帮着节约成本
提出问题 -> 提出理想 -> 结构化分析
数据采集
- 一手数据:主要来自企业内部的大数据平台、数据仓库以及相关系统,还有部分数据来自用户访谈和调研问卷以及内部沉淀的历史文档
- 二手数据:是来自行业内的数据或者企业内二次加工过,有失真的可能
- 趋势分析法:找到某一个类型的数据之后,捕捉这个数据一个时间段以内的变化。通过这些数据变化,我们去知道曾经有哪些变化、对结果数据会有哪些影响,这样可以找到其中关键的问题和原因
- 快照扩展法:截取某个时点的情况,然后通过下钻的方式来扩展这个指标的分布情况。我们会看在这个时点里面我们各部分对于整体的占比和影响程度
- 衍生指标法:进一步进行数据的加工,制造出一些衍生指标来拨开迷雾,衍生指标就像几何当中的辅助线一样,会帮助我们看到更有意义的数据
数据揭示
- 讲好故事
实践
改变和创新的扩散过程是要有一个周期的,参考埃弗雷特·罗杰斯(E.M.Rogers)提出创新扩散模型
观点的认知到具体落实到行动,理性行为理论:一件事,从认知到行动意图,不但是有主观的个体认知,同时客观的世界也是一种规范作用
数据可视化
**分布**:
- 数据可视化可以通过直方图、密度图或箱线图等方式展示数据的分布情况,帮助用户理解数据的集中程度、分散程度和分布形态。
**时间相关**:
- 时间序列图、时间轴等可视化方式可以展示数据随时间变化的趋势和周期性,帮助用户分析时间相关的数据模式和趋势。
**局部/整体**:
- 数据可视化可以通过缩放和局部放大的交互功能,同时展示数据的整体趋势和局部细节,帮助用户全面理解数据。
**偏差**:
- 偏差图、水平线图等可视化方式可以展示数据相对于基准值或平均值的偏差情况,帮助用户发现数据异常或变化趋势。
**相关性**:
- 散点图、热力图等可视化方式可以展示不同变量之间的相关性,帮助用户理解变量之间的关系和影响。
**排名**:
- 条形图、饼图等可视化方式可以展示数据的排名情况,帮助用户了解数据的重要性和优先级。
**量级**:
- 对数轴图、面积图等可视化方式可以展示数据的量级关系,帮助用户比较不同数据之间的大小差异。
**地图**:
- 地图可视化可以展示地理位置数据的分布和变化情况,帮助用户理解地域之间的差异和分布规律。
**流动**:
- 流程图、动态图等可视化方式可以展示数据流动的过程和路径,帮助用户追踪和分析数据流动的动态变化。
数学模型
对现实世界的一个特定对象,为了一个特定目的,根据特有的内在规律,做出一些必要的简化假设,运用适当的数学工具,得到的一个数学结构
stateDiagram-v2 模型准备 --> 模型假设 模型假设 --> 模型求解 模型求解 --> 模型分析 模型分析 --> 模型检验 模型检验 --> 模型假设 模型检验 --> 模型应用
业务模型
分析方法:方差、对比、描述统计
自定义模型:数据指标、等级模型、业务维度模型
算法模型
- [机器学习](/数据技术/机器学习.html)
经营分析
经营分析是通过不同经营指标分析了解现状,剖析现状发生的原因并预测业务未来发展趋势
数据分析报告
报告是分析数据完成的结果的一个展示,它的价值在于解决问题
- 站在较高高度展现事物全貌
- 多角度观察,传递不同分析结论
- 刨根问底,挖掘深度数据提出问题解决问题
面向对象:
- 战略层面:基于数据分析或者数据洞察中发现潜在机会点。因为他们要决定的是方向,基于方向投入相关资源,他们是用数据报告作为参考来做决策
- 策略层面:基于数据可以制定什么样的策略。例如:如果用户流失下降,更关注流失用户特征是什么,从而制定对应策略
- 执行层面:形成可落地执行的方案。例如:针对什么样的用户做什么
报告种类
- 日常报表:进度性、规范性、时效性
- 综合分析报告:全面性、联系性
- 专题分析报告:单一性、深入性
方法论
- 人货场
- SWOT
- 逻辑树
注意事项
1、要有一个好的框架2、每个分析都有结论,而且结论一定要明确3、分析结论不要太多要精4、分析结论一定要基于紧密严禁的数据分析推导过程5、好的分析要有很强的可读性6、数据分析报告尽量图表化7、好的分析报告一定要有逻辑性8、好的分析一定是出自于了解产品的基础上的和可靠的数据源9、好的分析报告一定要有解决方案和建议方案10、不要害怕或回避“不良结论”、不要创造太多难懂的名词