本来这部分内容不多,是想写在negative sampling 中和cbow一起的,但是写了后不小心按了删除键,浏览器直接回退,找不到了,所以重新写新的,以免出现上述情况
(接上)
三、Negative Sampling 模型——Skip-gram
这部分内容并不多,与cbow相比,只是目标函数有所变化,推导过程这里就略过。总的来说,就是将目标函数取最大似然,然后利用SGD方法求出词向量和最优参数。
目标函数如下所示:
G=∏w∈Cg(w)
其中, g(w)可以改写成如下形式:
g(w)=∏u∈context(w)g(u)
g(u)表示如下:
g(u)=∏z∈{u}∪NEG(u)p(z|w)
其中, NEG(u)表示在处理词 u时产生的负样本集合。
p(z|w)={σ(v(w)Tθz),1−σ(v(w)Tθz),Lu(z)=1Lu(z)=0
将以上式子合并之后就可以得到最终的目标函数:
G=∏w∈C∏u∈context(w)∏z∈{u}∪NEG(u)σ(v(w)Tθz)Lu(z)(1−σ(v(w)Tθz))Lu(z)
然后取 G<script type="math/tex" id="MathJax-Element-11">G</script>的最大似然对数,求目标函数的最优化。