『machine learning-3』Bayes

贝叶斯决策

一、贝叶斯公式

相关术语：
- 样本：\(x \in \text{R}^d\)，表示共有d个属性的样本
- 类别（状态）：\(\omega_i\)，表示第 i 个标签
- 先验概率：\(P(\omega_i)\)，表示类别为 \(\omega_i\) 的样本的分布
- 类条件概率：\(P(x \text{ | } \omega_i)\)，表示类别 \(\omega_i\)中样本\(x\)的比例
- 后验概率：\(P(\omega_i \text{ | }x)\)，表示给定任意样本\(x\)，判断其属于类别 \(\omega_i\) 的概率
贝叶斯公式：已知先验概率 \(P(\omega_i)\) 和条件概率\(P(x \text{ | }\omega_i)\)，计算后验概率 \(P(\omega_i \text{ | }x)\) \[ \begin{align} P(\omega_i \text{ | }x) &= \frac{P(x \text{, }\omega_i)}{P(x)} \\ &= \frac{P(x \text{ | }\omega_i)P(\omega_i)}{\sum_{i=1}^c P(x \text{ | }\omega_i)P(\omega_i)} \end{align} \] 注意：贝叶斯公式中，分子使用乘法公式，分母使用全概率公式

二、贝叶斯决策论

条件风险：设共有N种类别 \(C = \{\omega_1, \dots \omega_N\}\)，将真实类别为 \(\omega_j\) 的样本\(x\)误分类为 \(\omega_i\) 的损失为\(\lambda_{ij}\) 则进行 \(\omega_i\) 分类的条件风险 \(R(\omega_i \text{ | }x)\) 为： \[ R(\omega_i \text{ | }x) = \sum_{j=1}^N \lambda_{ij}P(\omega_j \text{ | }x) \] 注意：\(\lambda_{ii} = 0\)，即没有误分类的损失为 0；否则为对应的误分类损失值
最小风险贝叶斯决策：已知先验概率\(P(\omega_i)\)，类条件概率\(P(x \text{ | }\omega_i)\)（i = 1, 2, ..., N），待分类样本为 \(x\)
1. 后验概率：根据贝叶斯公式计算各后验概率 \(P(\omega_i \text{ | }x)\)（i = 1, 2, ..., N）
2. 考虑风险：根据所求后验概率和损失函数\(\lambda\)，计算各条件风险 \(R(\omega_i \text{ | }x)\)（i = 1, 2, ..., N）
3. 做出决策：\(\omega = \underset{i}{\text{argmin } }R(\omega_i \text{ | }x)\)，即选出使决策风险最小的类别
最小错误率贝叶斯决策：已知先验概率\(P(\omega_i)\)，类条件概率\(P(x \text{ | }\omega_i)\)（i = 1, 2, ..., N），待分类样本为 \(x\)
1. 后验概率：根据贝叶斯公式计算各后验概率 \(P(\omega_i\text{ | }x)\)（i = 1, 2, ..., N）
2. 做出决策：\(\omega = \underset{i}{\text{argmax }}{P(\omega_i \text{ | }x)}\)，即选出使错误率最小的类别
注意：最小错误率贝叶斯决策即为损失函数\(\lambda\)为 0 - 1 条件下的最小风险贝叶斯决策
朴素贝叶斯决策：
- 贝叶斯决策的问题：类条件概率\(P(x \text{ | }\omega_i)\) 是样本\(x\)在所有属性上的联合概率，难以从有限样本中获取
- 属性条件独立性假设：假设样本\(x\)的各个属性\(x_i\)之间相互独立，则类条件概率可做拆分： \[ \begin{align} P(x \text{ | }\omega_i) &= P(x_1x_2\dots x_d \text{ | }\omega) \\ &= \Pi_{i=1}^d P(x_i \text{ | }\omega) \end{align} \] 注意：独立性假设有助于降低对样本集的大小需求，从而降低复杂度
- 贝叶斯公式 + 属性独立性条件：朴素贝叶斯公式可以写为： \[ \begin{align} P(\omega \text{ | }x) &= \frac{P(\omega)P(x\text{ | }\omega)}{P(x)} \\ &= \frac{P(\omega)}{P(x)} \Pi_{i=1}^d P(x_i \text{ | }\omega) \end{align} \] 相应的决策转变为：\(\omega_k = \underset{j}{\text{argmin }}{P(\omega_j)\Pi_{i=1}^dP(x_i \text{ | }\omega_j)}\)（假设对各类别 \(P(x)\) 均相等）
- 基于训练样本的估计：
  - 先验概率估计：\(P(\omega_i) = \dfrac{|D_{\omega_j}| + 1}{|D| + N}\)
    其中 \(|D_{\omega_j}|\)表示样本集D中类别为\(\omega_j\)的样本数量，N表示样本集D中可能的类别数
  - 类条件概率估计：\(P(x_i \text{ | }\omega_j) = \dfrac{|D_{\omega_j, x_i}| + 1}{|D_{\omega_j}| + N_i}\)
    其中 \(|D_{\omega_j, x_i}|\)表示样本\(D_{\omega_j}\)中样本第i个属性取值为\(x_i\)的数量，\(N_i\)表示第i个属性可能的取值个数

machine learning

#Bayesian decision

『machine learning-3』Bayes

http://larry0454.github.io/2023/08/16/machine_learning/Bayes/

Author

WangLe

Posted on

August 16, 2023

Licensed under

『languages-1』C system programming Previous

『operating system-3』runtime library Next