概率论与数理统计

概率(Probability):描述事件发生的可能性的一个数值

概率和统计其实是互逆的,概率论是对数据产生的过程进行建模,然后研究某种模型所产生的数据有什么特性。而统计学正好相反,它需要通过已知的数据,来推导产生这些数据的模型是怎样的

随机事件

样本空间和随机事件

事件关系和运算

运算律

批注 2020-06-05 115302

事件的概率

事件A发生的可能性大小为P(A) 称为A的概率

A出现的频率 = (A出现的次数/实验总次数)

古典概型

P(A) = (A出现的次数/实验总次数)

几何概型

允许实验结果为无限个

公理化定义

性质:

条件概率与事件的独立性

条件概率

已知事件B发生的条件下,事件A发生的可能性的客观度量称为条件概率,记为P(A|B)。也就是某个事件受其他事件影响之后出现的概率

P(A|B) = P(AB) / P(B)

P (AB) = P(A)P(B|A)P (AB) = P(B)P(A|B)

全概率公式

用于多个原因导致一个结果发生

有互不相容事件B1 B2 B3 BNB1...BN 概率和为1A为Ω中的一个事件则 A = P(AB1) + P(AB2)...

贝叶斯公式

结果为x的事件,求y导致其发生的概率

P(x|y) = P(y|x)XP(x)/P(y)

贝叶斯原理

贝叶斯原理就是求解后验概率

朴素贝叶斯

基于一个简单假设建立的一种贝叶斯方法,并假定数据对象的不同属性对其归类影响时是相互独立的

结果为x的事件,求y,z导致其发生的概率

P(x|y,z) = P(x|y) X P(x|z)

在 A1、A2、A3 离散属性下,$C_j$ 的概率:

$$P(C_j|A_1A_2A_3) = \frac{P(A_1A_2A_3|C_j)P(C_j)}{P(A_1A_2A_3)}$$

如果要处理连续值,则通过样本计算出均值和方差,也就是得到正态分布的密度函数转成离散值

在机器学习中,通过事先对对象提取各个特征,计算可能性,再对未知对象时,通过各个特征的分值,就可以计算对象属于什么类的概率

VS其他算法:

朴素贝叶斯模型中的连续乘积会导致过小的值,甚至计算机都无法处理。为了避免这种情况,我们可以使用 log 的数学变换,将小数转换为绝对值大于 1 的负数

文本分类:

准备好各个词属于哪个分类的概率 -> 文本分词 -> 使用朴素贝叶斯计算分出的词属于哪个分类可能性最大

事件的独立性

若P(A|B) = P(A) 或 P(B|A)=P(B) 或 P(AB)=P(A)P(B)

则事件A与B互相独立

马尔可夫假设

链式法则:P(x1,x2,x3,...,xn) = P(x1) X P (x2 | x1) X P(x3 | x1, x2) X P(xn | x1,x2,...,xn-1)

二元文法模型:某个单词出现的概率只和它前面的 1 个单词有关

P(wn | w1,w2,...,wn-1) ≈ P(wn | wn-1)

语言模型可以用来:

  1. 信息检索:给定一个查询,哪篇文档是更相关的
  2. 分词:可以估算出基于词典分割的方式,哪种分割最为合理

马尔可夫模型

状态到状态之间是有关联的。前一个状态有一定的概率可以转移到到下一个状态。如果多个状态之间的随机转移满足马尔科夫假设,那么这类随机过程就是一个马尔科夫随机过程,刻画这类随机过程的统计模型,就是马尔科夫模型

隐含马尔可夫模型:像在语音识别中,同样的发音可以被识别为不同的文字,那么使用隐含模型,就可以在所有可能的识别结果中,选择可能性最高的一个

信息熵

刻画给定集合的纯净度大小的一个指标,纯净度的大小与元素种类多样性成反比

信息增益:对元素种类划分后,系统整体熵的下降

一种决策树算法就是每次计算问题的信息熵,挑选信息增益最高的问题,也就是区分度最高的问题

特征选择

如果一个特征,经常只在某个或少数几个分类中出现,而很少在其他分类中出现,那么说明这个特征具有较强的区分力,这个时候,对于一个特征,我们可以看看包含这个特征的数据,是不是只属于少数几个类,就可以使用信息熵来计算区分度:

$$-\sum_{j=1}^nP{\left(c_j\mid Df_i\right)}\times\log_2P{\left(c_j\mid Df_i\right)}$$

另外一种方式是卡方检验来检验两个变量是否相互独立:

如果两者独立,证明特征和分类没有明显的相关性,特征对于分类来说没有提供足够的信息量。反之,如果两者有较强的相关性,那么特征对于分类来说就是有信息量的,是个好的特征。

特征变化

x' = (x - min) / (max - min)

x' = (x - 均值) / 标准差

随机变量及其分布

随机变量:对于Ω上的每一样本点w,都有一个实数与之对应,则称X(w)的X为随机变量,用来描述事件所有可能出现的状态

分布函数F(x)=P(X<=x>)

概率分布描述的其实就是随机变量的概率规律

离散型随机变量

有一类随机变量可能的取值是有限个或可列无穷个,称之为离散型随机变量

各个可能的取值组合起来称之为随机变量X的分布律

连续型随机变量

一些随机变量的可能取值可充满一个区间,称之为连续型随机变量

常用连续型分布

期望值

也叫数学期望,是每次随机结果的出现概率乘以其结果的总和

二维随机变量及其分布

对于Ω上的每一样本点w,有两个实数XY与之对应,则(X,Y)为二维随机变量

二维离散型随机变量

二维连续型随机变量

统计意义

显著性差异:研究多组数据之间的差异是由于不同的数据分布导致的呢,还是由于采样的误差导致的

P 值:当 H0 假设为真时,样本出现的概率

方差分析,也叫 F 检验。这种方法可以检验两组或者多组样本的均值是否具备显著性差异

过拟合与欠拟合

2022118202517