首页 > 资讯 > 云计算 > 正文

LDA主题模型解析

18-10-19 来源：[db:作者]

收藏我要投稿

LDA主题模型

LDA是一种基于概率模型的主题模型算法(generative probabilistic model)，用来识别大规模文档集或者语料库中隐含的主题信息。对于语料库中的每篇文档，LDA定义了如下生成过程：

对每一篇文档，从主题分布中抽一个主题从上述被抽到的主题对应的单词分布中抽一个单词重复上述过程直至遍历文档中的每个词

LDA认为每篇文档是多个主题混合而成，而每个主题可以由多个词的概率表征。

背景知识

共轭前驱分布（conjugate prior）

In Bayesian probability theory, if the posterior distribution p(θ|x)" role="presentation"> $p (θ | x)$ are in the same family as the prior distribution p(θ)" role="presentation"> $p (θ)$ , the prior and the posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood function.

如果后验分布和先验分布同属于一个函数族，那么后验和先验称为共轭分布，先验被称为似然函数的共轭先验分布。Beta分布是二项分布的共轭先验分布，Dirichlet分布是多项分布的共轭先验分布。

根据贝叶斯规则，后验分布=似然函数*先验分布：
p(θ|x)=p(x|θ)p(θ)p(x)=p(x|θ)p(θ)∫p(x|θ)p(θ)dθ∝p(x|θ)p(θ)" role="presentation"> $p (θ | x) = \frac{p (x | θ) p (θ)}{p (x)} = \frac{p (x | θ) p (θ)}{\int p (x | θ) p (θ) d θ} \propto p (x | θ) p (θ)$
其中p(x|θ)" role="presentation"> $p (x | θ)$ 为likelihood，p(θ)" role="presentation"> $p (θ)$ 为prior belief，p(x)" role="presentation"> $p (x)$ 为evidence。

Dirichlet Distribution

Dirichlet分布是描述k(k≥2)" role="presentation"> $k (k \geq 2)$ 个变量X1,X2,⋯,Xk" role="presentation"> $X_{1}, X_{2},, X_{k}$ 的概率分布，其中xi∈(0,1),∑i=1kxi=1" role="presentation"> $x_{i} \in (0, 1), \sum_{i = 1}^{k} x_{i} = 1$ 。Dirichlet分布的参数为α→={α1,α2,⋯,αk}" role="presentation"> $\vec{α} = {α_{1}, α_{2},, α_{k}}$ ，其中αi>0" role="presentation"> $α_{i} > 0$ （不需要是整数，只需要是正实数即可）。

αi" role="presentation">

α_{i}

越大，赋予Xi" role="presentation">

X_{i}

的权重就越多(∑ixi=1" role="presentation">

\sum_{i} x_{i} = 1

) 当αi" role="presentation">

α_{i}

相等的时候，分布是对称的当αi<1" role="presentation">

α_{i} < 1

时，相当于一个anti-weight把xi" role="presentation">

x_{i}

推到一些极点(push away toward extremes) 当αi>1" role="presentation">

α_{i} > 1

时，会使得xi" role="presentation">

x_{i}

聚集在中心值

α1=⋯=αk=1" role="presentation"> $α_{1} = = α_{k} = 1$ 时，均匀分布

这里写图片描述

下图所展示的是三元Dirichlet分布，参数分别为：
1. α1=α2=α3=1" role="presentation"> $α_{1} = α_{2} = α_{3} = 1$
2. α1=α2=α3=10" role="presentation"> $α_{1} = α_{2} = α_{3} = 10$
3. α1=1,α2=10,α3=5" role="presentation"> $α_{1} = 1, α_{2} = 10, α_{3} = 5$
4. α1=α2=α3=0.2" role="presentation"> $α_{1} = α_{2} = α_{3} = 0.2$

LDA

在LDA模型中，一篇文档生成的方式如下：

这里写图片描述
1. 从狄利克雷分布α→" role="presentation"> $\vec{α}$ 中取样生成文档m" role="presentation"> $m$ 的主题分布 θ→m" role="presentation"> ${\vec{θ}}_{m}$
2. 从主题的多项式分布θ→m" role="presentation"> ${\vec{θ}}_{m}$ 中取样生成文档m" role="presentation"> $m$ 第 n" role="presentation"> $n$ 个词的主题zm,n" role="presentation"> $z_{m, n}$
3. 从K" role="presentation"> $K$ 个topic-word的狄利克雷分布中，选择k=zm,n" role="presentation"> $k = z_{m, n}$ 的Dirichlet 分布ϕ→k" role="presentation"> ${\vec{}}_{k}$ ，取样生成主题对应的词语分布
4. 从词语的多项式分布中采样最终生成词语wm,n" role="presentation"> $w_{m, n}$

通俗理解LDA
LDA算法漫游指南
What exactly is the alpha in the Dirichlet distribution
LDA数学八卦

点击复制链接与好友分享!回本站首页