Skip to content

Latest commit

 

History

History
72 lines (37 loc) · 3.56 KB

概率与信息论.md

File metadata and controls

72 lines (37 loc) · 3.56 KB

概率与信息论

概率论是用来描述不确定性的数学工具,很多机器学习算都是通过描述样本的概率相关信息或推断来构建模型。

1. 基本概念

  • 随机变量: 可以随机取不同值的变量,在机器学习算法中,每个样本的特征取值,标签值都可以看作是一个随机变量,包括离散型随机变量和连续型随机变量

  • 概率分布: 表示随机变量在每一个可能取到的状态下的可能性大小,对于离散型的概率分布,称为概率质量函数(Probability Mass Function, PMF),对于连续性的变量,其概率分布叫做概率密度函数(Probability Density Function, PDF)

  • 联合概率分布: 两个或两个以上随机随机变量联合地概率分布情况.

  • 边缘概率: 在知道联合概率分布后,其中某几个变量子集的概率分布被称为边缘概率分布

  • 条件概率: 在给定某个事件后,其他事件发生的概率,例如在已知今天多云的条件下下雨的概率就是条件概率有如下公式$$P(Y=y|X=x) = \frac{P(Y=y,X=x)}{P(X=x)}$$

  • 相互独立: 如果$$P(X=x,Y=y) = P(X=x)P(Y=y)$$,那么就称随机变量X和Y是相互独立的

  • 条件独立: 如果$$P(X=x,Y=y|Z=z) = P(X=x|Z=z)P(Y=y|Z=z)$$,那么就称随机变量X和Y是关于Z相互独立的

  • 贝叶斯准则: 在已知$$P(y|x)$$和$$P(x)$$的情况下,$$P(x|y)=\frac{P(x)P(y|x)}{P(y)}$$.

  • 期望: 函数$$f(x)$$关于某个分布$$P(x)$$的期望值,记为$$E_{x \sim P}[f(x)]=\int{p(x)f(x)dx}$$

  • 方差: 函数$$f(x)$$在某个分不下表现的差异性,记为$$Var(f(x)=E[(f(x)-E[f(x)])^2]$$

  • 协方差: 两个变量之间线性相关性的强度,记为$$Cov(f(x),g(x))= E[(f(x)-E[f(x)])(g(x)-E(g(x)))]$$

  • 信息熵: 描述某个概率分布中不确定性的度量,记为$$H(x)= -E_{x \sim P}[logP(x)]$$

  • 交叉熵: 描述两个概率分布之间相似度的一个指标,在机器学习中经常被用作为分类目标的损失函数,记为$$H(P,Q)= -E_{x \sim P}[logQ(x)]$$

2. 常用概率分布

  • 伯努利分布: 单个二值型变量的分布,例如$$P(x=1)=p,P(x=0)=1-p$$.

  • Multinoulli分布: 包含k个取值的离散分布,是伯努利分布的扩展

  • 高斯分布: 最常见的分布,记为$$N(x;\mu,\sigma^2)= \sqrt{\frac{1}{2\pi \sigma^2}} \exp \left ( -\frac{1}{2\sigma^2} (x-\mu)^2 \right)$$,其密度函数如下图示 ![高斯分布](img/normal dist.png)

  • 拉普拉斯分布:有着与高斯分布很相近的形式,记为$$\text{Laplace}(x; \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma} \right)$$,密度函数如下图

3. 常用函数

  • logistic sigmoid函数:$$\sigma(x) = \frac{1}{1+\exp(-x)}$$,经常被用来产生伯努利分布的概率值

    • 其函数图像如下:

    • logistic函数有许多重要的性质,通常被用来对数值进行平滑,下面是它的部分性质
  • softplus函数: $$\zeta(x) = \log(1+\exp(x))$$

    • softplus函数可以看作是$$max(0,x)$$的一个平滑,其函数图像如下:
    • 它有如下性质:

4.结构化概率模型

  • 概率图模型: 通过图的概念来表示随机变量之间的概率依赖关系,下图即为一个关于变量$$a,b,c,d,e$$之间的有向图模型,通过该图可以计算到$$p(a,b,c,d,e)=p(a)p(b|a)p(c|a,b)p(d|b)p(e|c)$$

![](/预备知识/img/graph model.png)