《Gibbs Sampling for the UniniTiated》阅读笔记(下)---连续型参数求积分的思考

《Gibbs Sampling for the UniniTiated》阅读笔记结构：

这篇是下篇，讨论中篇联合分布中对参数求积分来简化的问题。

之前存在的一个问题就是为啥我们可以对连续参数\(\pi\)求积分消去它，而不能对词分布\(\theta_0\)和\(\theta_1\)求积分。这个主意看上去很美，但是实际做的时候，你会碰到一大把无法约掉的伽马函数。让我们看看具体的过程。

《Gibbs Sampling for the UniniTiated》阅读笔记(中)---一个朴素贝叶斯文档模型例子

《Gibbs Sampling for the UniniTiated》阅读笔记结构：

这篇是中篇，介绍一个非常简单的朴素贝叶斯文档模型生成的例子，用来说明Gibbs Sampler具体是如何构造的。

文档生成的建模过程

首先我们有一批文档，文档里面有很多单词，这些单词都是无顺序可交换的（词袋模型），这些文档分成两类，类标签为0或者1。给予一篇未标记的文档\(W_j\)，我们要做的工作就是预测文档的类标签是\(L_j=0\)还是\(L_j=1\)。为了方便起见，我们定了类标签所表示的类\(\mathbb{C}_0={W_j|L_j=0}\)和\(\mathbb{C}_1={W_j|L_j=1}\)。一般来说预测这种事都是选择最有可能发生的，即找到\(W_j\)的后验概率\(P(L_j|W_j)\)最大的标签\(L_j\)。使用贝叶斯公式 \[\begin{equation} \begin{split} L_j=\arg \max \limits_{L}P(L|W_j)& =\arg \max \limits_{L}\frac{P(W_j|L)P(L)}{P(W_j)}\\& =\arg \max \limits_{L} P(W_j|L)P(L) \\\end{split} \end{equation}\] 因为分母\(P(W_j)\)与\(L\)无关所以删去了。通过贝叶斯公式的转换，我们可以想象这些文档的生成过程。首先，我们选择文档的类标签\(L_j\);假设这个过程是通过投硬币完成的（正面概率为\(\pi=P(L_j=1)\) )，正式地来说，就是服从贝努利分布 \[\begin{equation}L_j \sim Bernoulli(\pi)\end{equation}\] 然后，对于文档上\(R_j\)个“词位”中的每一个，我们根据一个概率分布\(\theta\)，随机独立地抽样一个词\(w_i\)。因为每个类生成词的\(\theta\)分布都不同，所以应该有\(\theta_1\)和\(\theta_2\)，具体地生成词的时候，我们根据文档的标签\(L_j\)来决定由哪个类来生成 \[\begin{equation} W_j \sim Multinomial(R_j,\theta_{L_j}) \end{equation}\]

《Gibbs Sampling for the UniniTiated》阅读笔记(上)---参数估计方法及Gibbs Sampling简介

前一阵子折腾的事儿太多，写了点东西都没有传上来，是我偷懒了- -，下不为例。

这篇文章基本上是来自于《Gibbs Sampling for the UniniTiated》，说是笔记其实和翻译也差不多了。

整个结构分为上中下三部分：

这篇是上部分，介绍基础参数估计和Gibbs Sampling概念。

为什么求积分—参数估计方法

很多概率模型的算法并不需要使用积分，只要对概率求和就行了（比如隐马尔科夫链的Baum-Welch算法），那么什么时候用到求积分呢？—— 当为了获得概率密度估计的时候，比如说根据一句话前面部分的文本估计下一个词的概率，根据email的内容估计它是否是垃圾邮件的概率等等。为了估计概率密度，一般有MLE（最大似然估计），MAP（最大后验估计），bayesian estimation（贝叶斯估计）三种方法。

最大似然估计

这里举一个例子来讲最大似然估计。假设我们有一个硬币，它扔出正面的概率\(\pi\)不确定，我们扔了10次，结果为HHHHTTTTTT（H为正面，T为反面）。利用最大似然估计的话，很容易得到下一次为正面的概率为0.4,因为它估计的是使观察数据产生的概率最大的参数。

令\(\chi=\{HHHHTTTTTT\}\)代表观察到的数据,\(y\)为下一次抛硬币可能的结果,估计公式如下: \[\begin{equation}\begin{split}\tilde{\pi}_{MLE} &=\arg \max \limits_{\pi}P(\chi|\pi) \\P(y|\chi) & \approx \int_{\pi} p(y|\tilde{\pi}_{MLE})P(\pi|\chi) d\pi = p(y|\tilde{\pi}_{MLE})\end{split}\end{equation}\]

心怀畏惧

Do not go gentle into that good night