Negative Sampling 负采样详解[通俗易懂]

Negative Sampling 负采样详解[通俗易懂]在word2vec中,为了简化训练的过程,经常会用到NegativeSampling负采样这个技巧,这个负采样到底是怎么样的呢?之前在我的博文word2vec算法理解和数学推导中对于word2vec有了很详细的数学推导,这里主要讲解一下负采样是如何降低word2vec的复杂度的。首先我们直接写出word2vec的目标函数,假设有一句话:query=w1,w2,w3,..,wnquery=…

大家好,又见面了,我是你们的朋友全栈君。

在word2vec中,为了简化训练的过程,经常会用到Negative Sampling负采样这个技巧,这个负采样到底是怎么样的呢?之前在我的博文 word2vec算法理解和数学推导 中对于word2vec有了很详细的数学推导,这里主要讲解一下负采样是如何降低word2vec的复杂度的。
首先我们直接写出word2vec的目标函数,假设有一句话: q u e r y = w 1 , w 2 , w 3 , . . , w n query = {w_1},{w_2},{w_3},..,{w_n} query=w1,w2,w3,..,wn,由n个词组成的一句话,我们需要最大化窗口中上下文词的概率:
arg ⁡ max ⁡ θ ∏ w ∈ q u e r y ∏ c ∈ c ( w ) P ( c ∣ w ; θ ) \arg \mathop {\max }\limits_\theta \prod\limits_{w \in query} {\prod\limits_{c \in c(w)} {P(c|w;\theta )} } argθmaxwquerycc(w)P(cw;θ)
这里的 c ( w ) c(w) c(w)表示中心词的context words,我们在计算的时候,可以把相乘的元素转换成对数函数:
arg ⁡ max ⁡ θ ∑ w ∈ q u e r y ∑ c ∈ c ( w ) log ⁡ P ( c ∣ w ; θ ) \arg \mathop {\max }\limits_\theta \sum\limits_{w \in query} {\sum\limits_{c \in c(w)} {\log P(c|w;\theta )} } argθmaxwquerycc(w)logP(cw;θ)
我们把概率函数可以进行展开就可以得到:
arg ⁡ max ⁡ θ ∑ w ∈ q u e r y ∑ c ∈ c ( w ) log ⁡ e u c ⋅ v w ∑ c ′ ∈ v o c a b e u c ′ ⋅ v w \arg \mathop {\max }\limits_\theta \sum\limits_{w \in query} {\sum\limits_{c \in c(w)} {\log \frac{
{
{e^{
{u_c} \cdot {v_w}}}}}{
{\sum\limits_{c’ \in vocab} {
{e^{
{u_{c’}} \cdot {v_w}}}} }}} }
argθmaxwquerycc(w)logcvocabeucvweucvw

这个式子可以表示成:
arg ⁡ max ⁡ θ ∑ w ∈ q u e r y ∑ c ∈ c ( w ) ( e u c ⋅ v w − log ⁡ ∑ c ′ ∈ v o c a b e u c ′ ⋅ v w ) \arg \mathop {\max }\limits_\theta \sum\limits_{w \in query} {\sum\limits_{c \in c(w)} {({e^{
{u_c} \cdot {v_w}}} – \log \sum\limits_{c’ \in vocab} {
{e^{
{u_{c’}} \cdot {v_w}}}} )} }
argθmaxwquerycc(w)(eucvwlogcvocabeucvw)

我们可以看到这个式子第二项,因为 c ′ c’ c要遍历整个词库,所以复杂度非常高,所以我们要简化这一步的计算,减小运算的复杂度。这里的 u c u_c uc表示 c c c的上下文向量, v w v_w vw表示中心词 w w w的向量。
为了减小上述表达式的复杂度,我们不妨改变一下上述概率的表达方式,原来的 p ( w i ∣ w j ) p({w_i}|{w_j}) p(wiwj) 表示以 w j w_j wj 为中心词的时候 w i w_i wi 出现的概率,这里我们用 p ( D = 1 ∣ w i , w j ; θ ) p(D = 1|{w_i},{w_j};\theta ) p(D=1wi,wj;θ) 表示 w i w_i wi w j w_j wj 作为上下文词出现的概率, p ( D = 0 ∣ w i , w j ; θ ) p(D = 0|{w_i},{w_j};\theta ) p(D=0wi,wj;θ) 表示 w i w_i wi w j w_j wj 不作为上下文词出现的概率。
由上述新的表达式可以写出新的目标函数:
arg ⁡ max ⁡ θ ∏ ( w , c ) ∈ D p ( D = 1 ∣ w , c ; θ ) ∏ ( w , c ) ∈ D ~ p ( D = 0 ∣ w , c ; θ ) \arg \mathop {\max }\limits_\theta \prod\limits_{(w,c) \in D} {p(D = 1|w,c;\theta )\prod\limits_{(w,c) \in \tilde D} {p(D = 0|w,c;\theta )} } argθmax(w,c)Dp(D=1w,c;θ)(w,c)D~p(D=0w,c;θ)
这里的 D D D 表示上下文词的集合, D ~ \tilde D D~ 表示非上下文的集合,我们来举一个例子,这里有一句话:“川建国同志是一名优秀的党员”,这句话分词去停之后变成: 川建国 同志 一名 优秀 党员。那么 D D D 表示上下文集合,我们假设 window size为1,那么可以写出:
D D D = {(川建国,同志),(同志,川建国),(同志,一名),(一名,同志),(一名,优秀),(优秀,一名),(优秀,党员)}
D ~ \tilde D D~ = {(川建国,一名),(川建国,优秀),(川建国,党员),(同志,优秀),(同志,党员),(一名,川建国),(一名,党员),(优秀,川建国),(优秀,同志),(党员,川建国),(党员,同志),(党员,一名)}。
上述的 D D D 表示正样本, D ~ \tilde D D~ 表示负样本。我们可以继续表示上述的目标函数,我们可以吧正负样本的概率表示成sigmoid的表达形式:
arg ⁡ max ⁡ θ ∏ ( w , c ) ∈ D 1 1 + e − u c ⋅ v w ∏ ( w , c ) ∈ D ~ ( 1 − 1 1 + e − u c ⋅ v w ) = arg ⁡ max ⁡ θ ∑ ( w , c ) ∈ D log ⁡ σ ( u c ⋅ v w ) + ∑ ( w , c ) ∈ D ~ log ⁡ σ ( − u c ⋅ v w ) \arg \mathop {\max }\limits_\theta \prod\limits_{(w,c) \in D} {\frac{1}{
{1 + {e^{ – {u_c} \cdot {v_w}}}}}\prod\limits_{(w,c) \in \tilde D} {(1 – \frac{1}{
{1 + {e^{ – {u_c} \cdot {v_w}}}}})} } = \arg \mathop {\max }\limits_\theta \sum\limits_{(w,c) \in D} {\log \sigma ({u_c} \cdot {v_w})} + \sum\limits_{(w,c) \in \tilde D} {\log \sigma ( – {u_c} \cdot {v_w})}
argθmax(w,c)D1+eucvw1(w,c)D~(11+eucvw1)=argθmax(w,c)Dlogσ(ucvw)+(w,c)D~logσ(ucvw)

在词库数量级为 1 0 5 10^5 105的时候,正样本加负样本 D ~ \tilde D D~的数量级可以达到 1 0 10 10^{10} 1010左右,里面绝大部分都是负样本,所以我们需要降低负样本计算中的时间复杂度,这就是Negative Sampling 负采样的核心。负采样就是对于一个中心词,我们从中心词对应的负样本中随机抽取几组来做梯度下降。还是川建国的例子,对于正样本(川建国,同志),我们随机抽取负样本(川建国,一名),(川建国,党员)来做训练,不用全部的负样本都拿来训练,这就是负采样,减小了计算的复杂度。所以,上述的目标函数可以写成:
≈ arg ⁡ max ⁡ θ ∑ ( w , c ) ∈ D [ log ⁡ σ ( u c ⋅ v w ) + ∑ c ′ ∈ N ( w ) log ⁡ σ ( − u c ′ ⋅ v w ) ] \approx \arg \mathop {\max }\limits_\theta \sum\limits_{(w,c) \in D} {[\log \sigma ({u_c} \cdot {v_w}) + \sum\limits_{c’ \in N(w)} {\log \sigma ( – {u_{c’}} \cdot {v_w})} ]} argθmax(w,c)D[logσ(ucvw)+cN(w)logσ(ucvw)]
从上述表达式可以看出,负样本我们不需要取所有的都拿来训练,我们只需要每个中心词抽几个负样本就可以了,这样可以大大降低计算的复杂度。这就是word2vec训练过程中的Negative Sampling 负采样技巧,可以大大减小梯度下降的时间复杂度,这就有点像SGD随机梯度下降,就是随机一个样本进行梯度下降,大体的方向还是朝着最低点下降。
接着我来解答一下上述这个表达式,一起来看看是如何进行梯度下降的,首先我们假设:
L ( θ ) = log ⁡ σ ( u c ⋅ v w ) + ∑ c ′ ∈ N ( w ) log ⁡ σ ( − u c ′ ⋅ v w ) L(\theta ) = \log \sigma ({u_c} \cdot {v_w}) + \sum\limits_{c’ \in N(w)} {\log \sigma ( – {u_{c’}} \cdot {v_w})} L(θ)=logσ(ucvw)+cN(w)logσ(ucvw)
接下来我们需要对该表达式求偏导:
∂ L ( θ ) ∂ u c = σ ( u c ⋅ v w ) [ 1 − σ ( u c ⋅ v w ) ] ⋅ v w σ ( u c ⋅ v w ) = [ 1 − σ ( u c ⋅ v w ) ] ⋅ v w \frac{
{\partial L(\theta )}}{
{\partial {u_c}}} = \frac{
{\sigma ({u_c} \cdot {v_w})[1 – \sigma ({u_c} \cdot {v_w})] \cdot {v_w}}}{
{\sigma ({u_c} \cdot {v_w})}} = [1 – \sigma ({u_c} \cdot {v_w})] \cdot {v_w}
ucL(θ)=σ(ucvw)σ(ucvw)[1σ(ucvw)]vw=[1σ(ucvw)]vw

∂ L ( θ ) ∂ u c ′ = σ ( − u c ′ ⋅ v w ) [ 1 − σ ( − u c ′ ⋅ v w ) ] ⋅ ( − v w ) σ ( − u c ′ ⋅ v w ) = [ σ ( u c ′ ⋅ v w ) − 1 ] ⋅ v w \frac{
{\partial L(\theta )}}{
{\partial {u_{c’}}}} = \frac{
{\sigma ( – {u_{c’}} \cdot {v_w})[1 – \sigma ( – {u_{c’}} \cdot {v_w})] \cdot ( – {v_w})}}{
{\sigma ( – {u_{c’}} \cdot {v_w})}} = [\sigma ({u_{c’}} \cdot {v_w}) – 1] \cdot {v_w}
ucL(θ)=σ(ucvw)σ(ucvw)[1σ(ucvw)](vw)=[σ(ucvw)1]vw

∂ L ( θ ) ∂ v w = σ ( u c ⋅ v w ) [ 1 − σ ( u c ⋅ v w ) ] ⋅ u c σ ( u c ⋅ v w ) + ∑ c ′ ∈ N ( w ) ∂ ( − u c ′ ⋅ v w ) [ 1 − σ ( − u c ′ ⋅ v w ) ] ⋅ ( − u c ′ ) ∂ ( − u c ′ ⋅ v w ) = [ 1 − σ ( u c ⋅ v w ) ] ⋅ u c + ∑ c ′ ∈ N ( w ) [ σ ( − u c ′ ⋅ v w ) − 1 ] ⋅ u c ′ \frac{
{\partial L(\theta )}}{
{\partial {v_w}}} = \frac{
{\sigma ({u_c} \cdot {v_w})[1 – \sigma ({u_c} \cdot {v_w})] \cdot {u_c}}}{
{\sigma ({u_c} \cdot {v_w})}} + \sum\limits_{c’ \in N(w)} {\frac{
{\partial ( – {u_{c’}} \cdot {v_w})[1 – \sigma ( – {u_{c’}} \cdot {v_w})] \cdot ( – {u_{c’}})}}{
{\partial ( – {u_{c’}} \cdot {v_w})}} = [1 – \sigma ({u_c} \cdot {v_w})] \cdot {u_c} + \sum\limits_{c’ \in N(w)} {[\sigma ( – {u_{c’}} \cdot {v_w}) – 1] \cdot {u_{c’}}} }
vwL(θ)=σ(ucvw)σ(ucvw)[1σ(ucvw)]uc+cN(w)(ucvw)(ucvw)[1σ(ucvw)](uc)=[1σ(ucvw)]uc+cN(w)[σ(ucvw)1]uc

然后整体的梯度下降可以表示成:
u c : = u c + η ∂ L ( θ ) ∂ u c {u_c}: = {u_c} + \eta \frac{
{\partial L(\theta )}}{
{\partial {u_c}}}
uc:=uc+ηucL(θ)

u c ′ : = u c ′ + η ∂ L ( θ ) ∂ u c ′ {u_{c’}}: = {u_{c’}} + \eta \frac{
{\partial L(\theta )}}{
{\partial {u_{c’}}}}
uc:=uc+ηucL(θ)

v w : = v w + η ∂ L ( θ ) ∂ v w {v_w}: = {v_w} + \eta \frac{
{\partial L(\theta )}}{
{\partial {v_w}}}
vw:=vw+ηvwL(θ)

这就是word2vec训练过程中的负采样技巧,希望可以通过细致的讲解能够帮助大家深刻地理解负采样,码字不易,如有转载请注明出处,文中如有纰漏,也请各位读者不吝指教,谢谢。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/148749.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • App测试面试题_软件测试算法面试题汇总

    App测试面试题_软件测试算法面试题汇总1.Web端测试和App端测试有何不同(常见)系统结构方面Web项目,b/s架构,基于浏览器的;Web测试只要更新了服务器端,客户端就会同步会更新;App项目,c/s结构的,必须要有客户端;App修改了服务端,则客户端用户所有核心版本都需要进行回归测试一遍;兼容方面Web项目:a.浏览器(火狐、谷歌、IE等)b.操作系统(Windows7、Windows10、Linux等)App项目:a.设备系统:iOS(ipad、iphone)、Android(三星、华为、联想等)、

  • 我的手机软件

    我的手机软件总结一下现在我装的软件,这些我都有安装版,兄弟们可以复用:)我的手机:Nokia6680操作系统:Symbian60Ⅲ目前手机上装的:6630EditableQuickOffice2.sisoffice套件,实际用的很少。6681字典字库.SIS字典,有用。ACM超级来电管家来电管家,当然有用啦,防火墙,自动短信回复…

  • 网页设计实现留言板_有关留言板界面的设计

    网页设计实现留言板_有关留言板界面的设计web网页设计期末大作业_留言板制作.doc本科学生综合性实验报告姓名___李朝彭__学号_______1341004242___学院________信息学院_专业软件工程班级_13F_课程名称《Web应用开发技术》实验名称综合性作品设计—留言板_指导教师_______白磊_______________开课学期2014至2…

    2022年10月30日
  • 用laravel搭一个微信公众号后台

    用laravel搭一个微信公众号后台

    2021年10月25日
  • Java 异常错误 (Ljava/lang/String;)L java/lang/String;「建议收藏」

    Java 异常错误 (Ljava/lang/String;)L java/lang/String;「建议收藏」异常问题如下:起初xml中返回值类型是这样子,一直在找返回值类型的问题,怎么看都是没有问题的又改为如下,结果还是不对,查询资料反反复复还是出现这个异常突然一下想到会不会是有重复id名字的sql 我用的是idea,直接全局查询,确实查到了一模一样在别的包下的sql,因为我项目是maven的子工程,就给冲突了;最后还是冒着尝试想法去试了一下,把名字一个,哦吼!美滋滋 问题解决 不在报错以后开发还是需要多注意名字重复的问题的!…

  • 周末随笔「建议收藏」

    随便记录,聊以自慰这段时间的心思在工作上,也有一段时间没写一些东西了,内心有一些想法,搁置起来了。去年有段时间想着搞搞副业,说实话副业没赚到多少,几百上千的,还是自己能力不够。还是想办法先努力提高主业的收入,作为一个打工者,目前无非就是看哪里搬砖收益更好一点,能有更多点的成长而已。作为程序员,自己对技术的热情大多数只是停留在工作的使用上。这个技术工作中用了没有热情也是强制去了解去学习,要不就慢慢等着淘汰。单独靠热情驱动,还没发现自己真正对什么东西充满热情,有时候觉得可悲,无奈。工作对于目前的我来.

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号