博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
浅谈gibbs sampling(LDA实验)
阅读量:7064 次
发布时间:2019-06-28

本文共 1327 字,大约阅读时间需要 4 分钟。

先把问题描述一下:

如果我们已知了topic内的每个词的词频,比如下图中topic1 中money 2 次,loan 3次...那么任意给一个文档我们可以对里面每一个词算一个产生这个词的概率即 P(w=wi|t=tj)

如下图,doc1 中的money 百分之百的来自于topic1 。doc2 中的词用topic1 无法全部解释,必须借助topic2 。

但现在问题是,如果我们只有一堆文档,Doc1,Doc2,Doc3,且拍脑袋的大概知道会有2个topic,那么怎么产生着两个topic才能最好的解释这三个文档呢?

       

因此我们要计算一个概率,即文档中的这个词活脱脱的呈现在我们面前的概率P(wi),我们尽可能想办法让这个概率最大。就好像XX厂长成功了,我们要罗织功劳,让XX厂长成功这件事,最可信。

 那么这个概率计算的方法如下图,简单来说就是 P(wi) = P(wi|topic) * P(topic|doc)*p(doc),我们省略p(doc)【求解没有意义】于是得到下面公式。

 

 

现在问题又来了,如果给定一个文档di的一个词wi,他最大可能是来自哪个topic呢?

即 求解P(topic|(di,wi))?

我们知道,P(topic|(wi,di))和P((wi,di)|topic)有关系,那么P((wi,di)|topic)=P(wi|topic)P(doc|topic),即我们要使得P(wi|topic)P(doc|topic) 这两个东东的liklyhood最大。

也就是论文中的CWT和CDT,而下图公式左边 (CWT+β)/(∑CWT+Wβ) 表示的含义就是P(wi|topic),即topic产生wi的能力。后面一个是P(doc|topici)。

为了验证有效性,我对论文中的这个例子做了实验,很遗憾没有做到他的结果,但我感觉应该是对的,其中α,大家可以调大调小了试试看,调大了的结果是每个文档接近同一个topic,即让p(wi|topici)发挥的作用小,这样p(di|topici)发挥的作用就大。 其中的β,调大的结果是让p(di|topici)发挥的作用变下,而让p(wi|topici)发挥的作用变大,体现在每个topic更集中在几个词汇上面,或者而每个词汇都尽可能的百分百概率转移到一个topic上。

大家可以看下论文,用我的代码实际感觉下数据的变化。

 

以下to @老师木 @王威廉 @李沐mu @等高手:

我觉得论文中的结果也很奇怪,如果在更新wi的类标号的时候,比如更新第一个doc的第二词,money,money出现了6次(2黑,4白),如果第一个更新为白,后面怎么可能更新为黑呢?如果不可能,为什么论文作者在64次迭代后,会有一些文档同一个word会打上不同的类标签,比如doc2,的bank,打了4黑1白? 

我尝试过update放在每个更新之后,发现也做不到,很神奇,也许论文作者原始文档的term出现顺序不是我写的那样。

 

 

代码和论文地址:

 

版权声明:本文为博主原创文章,未经博主允许不得转载。

转载于:https://www.cnblogs.com/Yiutto/articles/4916449.html

你可能感兴趣的文章
【转】在Eclipse中使用JUnit4进行单元测试(初级篇)
查看>>
【斜优DP】bzoj4518-Sdoi2016征途
查看>>
iOS开发网络篇—文件的上传
查看>>
Linode服务器部署docker环境
查看>>
在servlet中注入spring环境
查看>>
Android源代码编译——下载
查看>>
chrome误删书签恢复。
查看>>
类名和字符串之间的转换(实现动态编码)
查看>>
python 之datetime库学习
查看>>
Math.abs为Integer.Min_VALUE返回错误的值
查看>>
做了一个小游戏,结项目,数数坑(animate,移动端长按出现菜单,touchmove,禁止微信上下滑屏)...
查看>>
offsetHeight相关介绍
查看>>
windows使用git记录
查看>>
**CodeIgniter系列 添加filter和helper
查看>>
XSLT比较运算符中,如何使用与?
查看>>
Freedom DownTime
查看>>
matlab进入指定目录
查看>>
three.js
查看>>
关于炉石传说的NGUI问题
查看>>
用 EasyUEFI 在 Win8/10 中硬盘安装 Ubuntu
查看>>