2013-03-12

LDA学习笔记---来自《Parameter estimation for text analysis》

2013年10月10日更新。

LDA的概率图如下图1所示：

参数的意思如图2所示：

根据模型，文章m的第n个词t是这样生成的：先从文章m的doc-topic分布中生成一个topic编号\(z_{m,n}\)，在根据编号第\(z_{m,n}\)个的topic-word分布中生成这个词，总够有\(K\)个topic，所以总的概率为： \[ p(w_{m,n}=t|\vec{\theta}_m,\underline{\Phi})=\sum^K_{k=1}p(w_{m,n}=t|\vec{\phi}_k)p(z_{m,n}=k|\vec{\theta}_m)\] 如果我们写出这篇文章的complete-data的联合分布（意思就是所以变量都已知的情况下），那么式子就是这样的：

通过对\(\vec{\vartheta_m}\)（doc-topic分布）和\(\underline{\Phi}\)（topic-word分布）积分以及\(z_{m,n}\)求和，我们可以求得\(\vec{w_m}\)的边缘分布：

(实际上这个边缘分布是求不出来的，因为\(z_{m,n}\)是隐藏变量，从而导致\(\underline{\vartheta}\)与\(\underline{\Phi}\)存在耦合现象，无法积分得到。要注意联合分布和边缘分布对Z乘积与加和的区别）

因为一个语料库有很多篇文章，而且文章之间都是相互独立的，所以整个语料库的似然为 \[ p(\mathcal{W}|\vec{\alpha},\vec{\beta})=\prod^{M}_{m=1}p(\vec{w_m}|\vec{\alpha},\vec{\beta})\]

虽然LDA（latent Dirichlet allocation)是个相对简单的模型，对它直接推断一般也是不可行的，所以我们要采用近似推断的方法，比如Gibbs sampling。

一般形式的EM算法

问题定义

先给出一般EM算法的问题定义。给定一个训练集\(X=\{x^{\{1\}},\ldots,x^{\{m\}}\}\)。根据模型的假设，我们希望能够通过这些数据来估计参数\(\theta\)，但是每个我们观察到的\(x^{i}\) 还受着一个我们观察不到的隐含变量\(z^{i}\)（也是\(\theta\)生成的）控制，我们记\(Z=\{z^{\{1\}},\ldots,z^{\{m\}}\}\), 整个模型\(p(X,Z|\theta)\)是个关于变量\(X,Z\)的联合分布。

我们通过求最大似然\(L(\theta|X)\)来估计\(\theta\)的值。

\[ \theta=\arg\max_{\theta} L(\theta|X)\]

其中

\[ L(\theta|X)=\ln p(X|\theta)=\ln \sum_{Z}{p(X,Z|\theta)}\]

这里要注意\(p(X|\theta)\)是一个边缘分布，需要通过聚合\(Z\)得到。由于右边的式子在对数函数中又存在加和，所以我们直接对似然求导是没办法得到\(\theta\)的。

这里EM算法可以比较好地解决这个问题。对于EM的一般算法，有从期望的角度解释，用Jensen不等式证明正确性的方法（见参考2）。这里我讲的是另一种从相对熵角度解释，来自PRML的方法。这两种方法各有特定，对比如下：

使用期望的角度来讲，可以地了解EM算法是如何绕过未知\(Z\)下难以计算的问题，即通过最大化它的期望。但是对E和M步如何逼近极大似然的过程，需要对Jensen不等式和单调逼近\(\theta\)最优值过程的理解。
使用相对熵角度解释，可以看清似然函数和它的下界函的迭代增长过程。但~~是对\(Q(Z)\)和KL散度的引入，以及为什么要最大化下界函数这一点讲的不是很明白（个人看法）。~~2013年9月25日更新：这里应该是设一个分布Q(z)来近似P(Z)，KL散度描述了这两个分布之间的差异，这里只是没有提到下界函数刚好是似然关于后验概率的期望，要求的是下界函数也就是期望的最大值。

高斯混合模型与EM算法

这周主要学习了高斯混合模型以及EM算法的经典应用。Gaussian Mixture Model (GMM)即可以用于聚类，也可以用于估计概率密度函数。假设我们有一个训练集\(x^{(1)},\ldots,x^{(m)}\), 这训练集是无监督的，所以没有分类标签。

心怀畏惧

Do not go gentle into that good night

LDA学习笔记---来自《Parameter estimation for text analysis》

一般形式的EM算法

问题定义

高斯混合模型与EM算法