『machine learning-3』Bayes
贝叶斯决策
一、贝叶斯公式
相关术语:
- 样本:\(x \in \text{R}^d\),表示共有d个属性的样本
- 类别(状态):\(\omega_i\),表示第 i 个标签
- 先验概率:\(P(\omega_i)\),表示类别为 \(\omega_i\) 的样本的分布
- 类条件概率:\(P(x \text{ | } \omega_i)\),表示类别 \(\omega_i\)中样本\(x\)的比例
- 后验概率:\(P(\omega_i \text{ | }x)\),表示给定任意样本\(x\),判断其属于类别 \(\omega_i\) 的概率
贝叶斯公式:已知先验概率 \(P(\omega_i)\) 和条件概率\(P(x \text{ | }\omega_i)\),计算后验概率 \(P(\omega_i \text{ | }x)\) \[ \begin{align} P(\omega_i \text{ | }x) &= \frac{P(x \text{, }\omega_i)}{P(x)} \\ &= \frac{P(x \text{ | }\omega_i)P(\omega_i)}{\sum_{i=1}^c P(x \text{ | }\omega_i)P(\omega_i)} \end{align} \] 注意:贝叶斯公式中,分子使用乘法公式,分母使用全概率公式
二、贝叶斯决策论
条件风险:设共有N种类别 \(C = \{\omega_1, \dots \omega_N\}\),将真实类别为 \(\omega_j\) 的样本\(x\)误分类为 \(\omega_i\) 的损失为\(\lambda_{ij}\) 则进行 \(\omega_i\) 分类的条件风险 \(R(\omega_i \text{ | }x)\) 为: \[ R(\omega_i \text{ | }x) = \sum_{j=1}^N \lambda_{ij}P(\omega_j \text{ | }x) \] 注意:\(\lambda_{ii} = 0\),即没有误分类的损失为 0;否则为对应的误分类损失值
最小风险贝叶斯决策:已知先验概率\(P(\omega_i)\),类条件概率\(P(x \text{ | }\omega_i)\)(i = 1, 2, ..., N),待分类样本为 \(x\)
- 后验概率:根据贝叶斯公式计算各后验概率 \(P(\omega_i \text{ | }x)\)(i = 1, 2, ..., N)
- 考虑风险:根据所求后验概率和损失函数\(\lambda\),计算各条件风险 \(R(\omega_i \text{ | }x)\)(i = 1, 2, ..., N)
- 做出决策:\(\omega = \underset{i}{\text{argmin } }R(\omega_i \text{ | }x)\),即选出使决策风险最小的类别
最小错误率贝叶斯决策:已知先验概率\(P(\omega_i)\),类条件概率\(P(x \text{ | }\omega_i)\)(i = 1, 2, ..., N),待分类样本为 \(x\)
- 后验概率:根据贝叶斯公式计算各后验概率 \(P(\omega_i\text{ | }x)\)(i = 1, 2, ..., N)
- 做出决策:\(\omega = \underset{i}{\text{argmax }}{P(\omega_i \text{ | }x)}\),即选出使错误率最小的类别
注意:最小错误率贝叶斯决策即为损失函数\(\lambda\)为 0 - 1 条件下的最小风险贝叶斯决策
朴素贝叶斯决策:
贝叶斯决策的问题:类条件概率\(P(x \text{ | }\omega_i)\) 是样本\(x\)在所有属性上的联合概率,难以从有限样本中获取
属性条件独立性假设:假设样本\(x\)的各个属性\(x_i\)之间相互独立,则类条件概率可做拆分: \[ \begin{align} P(x \text{ | }\omega_i) &= P(x_1x_2\dots x_d \text{ | }\omega) \\ &= \Pi_{i=1}^d P(x_i \text{ | }\omega) \end{align} \] 注意:独立性假设有助于降低对样本集的大小需求,从而降低复杂度
贝叶斯公式 + 属性独立性条件:朴素贝叶斯公式可以写为: \[ \begin{align} P(\omega \text{ | }x) &= \frac{P(\omega)P(x\text{ | }\omega)}{P(x)} \\ &= \frac{P(\omega)}{P(x)} \Pi_{i=1}^d P(x_i \text{ | }\omega) \end{align} \] 相应的决策转变为:\(\omega_k = \underset{j}{\text{argmin }}{P(\omega_j)\Pi_{i=1}^dP(x_i \text{ | }\omega_j)}\)(假设对各类别 \(P(x)\) 均相等)
基于训练样本的估计:
- 先验概率估计:\(P(\omega_i) =
\dfrac{|D_{\omega_j}| + 1}{|D| + N}\)
其中 \(|D_{\omega_j}|\)表示样本集D中类别为\(\omega_j\)的样本数量,N表示样本集D中可能的类别数 - 类条件概率估计:\(P(x_i \text{ |
}\omega_j) = \dfrac{|D_{\omega_j, x_i}| + 1}{|D_{\omega_j}| +
N_i}\)
其中 \(|D_{\omega_j, x_i}|\)表示样本\(D_{\omega_j}\)中样本第i个属性取值为\(x_i\)的数量,\(N_i\)表示第i个属性可能的取值个数
- 先验概率估计:\(P(\omega_i) =
\dfrac{|D_{\omega_j}| + 1}{|D| + N}\)