word2vec原理简述[通俗易懂]

全栈程序员-用户IM • 2022年5月16日下午11:20 • 未分类

word2vec原理简述[通俗易懂]（原创）word2vec是将单词转为向量，并为后续应用机器学习的算法做准备。经典的模型有两种，skip-gram和cbow，其中，skip-gram是给定输入单词来预测上下文，而cbow相反，是给定上下文来预测输入单词。下面主要介绍skip-gram：1.skip-gram训练词对skip-gram首先设定所谓一个值（skip_window），作为一个单词选取它的上下文的单词…

大家好，又见面了，我是你们的朋友全栈君。

（原创）

word2vec是将单词转为向量，并为后续应用机器学习的算法做准备。

经典的模型有两种，skip-gram和cbow，

其中，skip-gram是给定输入单词来预测上下文，而cbow相反，是给定上下文来预测输入单词。下面主要介绍skip-gram：

1.skip-gram训练词对

skip-gram首先设定所谓一个值（ skip_window），作为一个单词选取它的上下文的单词的数量，

这些词对，作为训练数据，如 “the quick brown fox jumps over lazy dog”，对于quick，有

（quick，the），（quick，brown），（quick，fox）三个词对，作为quick的训练标签。

2.word嵌入到k维空间，k维向量化

接下来是对语料中单词的向量化处理，首先将语料中不重复的单词都拿出来成为词汇表，

然后对其进行one-hot编码，如10000个单词，其中a编码为 [1,0,0,0….]，这个时候单词已经转为了向量，但是只是这样并不能看出任意两词之间的相关性，而且词汇表如果大的话，导致维度灾难。

Hinton提出了映射到K维向量的思想，基于这个思想用一个简单的多分类的神经网络来训练得到这些K为向量。

输入层是n个one-hot编码的词，输出也是one-hot编码的词（对skipgram的词对进行训练），

隐含层为 k个神经元节点，含有n*k的权重矩阵，经过这层将词向量转换为k维向量，

再经softmax输出为n维的预测概率向量，优化残差函数，训练权重系数。

最终训练结束后，这个n*k的权重矩阵的每一行就作为该单词的k维向量了。

转载于:https://www.cnblogs.com/randomstring/p/10439384.html

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/145615.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

golang 实现HTTP代理和反向代理

golang 实现HTTP代理和反向代理代理的核心功能可以用一句话概括：接受客户端的请求，转发到后端服务器，获得应答之后返回给客户端。下图是《HTTP权威指南》一书中给出的图例，可以很清晰地说明这一流程：代理的功能有很多，事实上整个互联网到处都充斥着代理服务器。如果所有的HTTP访问都是客户端和服务器端直接进行的话，我们的网络不仅会变得缓慢，而且性能会大打折扣。代理服务器根据不同的配置和使用，可能会有不同的功能，这些…

全栈程序员-用户IM
2022年7月16日
微信小程序列表点击跳转对应详情页[通俗易懂]

微信小程序列表点击跳转对应详情页[通俗易懂]效果展示：列表页js部分：onLoad:function(options){varthat=this;wx.request({url:’你的接口’,data:{ 接口参数},header:{‘content-type’:’ap…

全栈程序员-用户IM
2022年8月19日
VR社交软件测试-AltspaceVR

VR社交软件测试-AltspaceVR

全栈程序员-用户IM
2021年7月1日
MiniPCIE打板需要注意的细节[通俗易懂]

MiniPCIE打板需要注意的细节[通俗易懂]Minipcie可以不用做斜边，重要的是板厚1.0

全栈程序员-用户IM
2022年9月8日
docker

docker下载安装教程_安卓安装docker

docker下载安装教程_安卓安装docker前言Docker提供轻量的虚拟化，你能够从Docker获得一个额外抽象层，你能够在单台机器上运行多个Docker微容器，而每个微容器里都有一个微服务或独立应用，例如你可以将Tomcat运行在一个D

全栈程序员-用户IM
2022年7月29日
2021纪念品csgo_csgo最便宜的开箱网站

2021纪念品csgo_csgo最便宜的开箱网站2021已知目前最全的国内CSGO开箱网站大全!!incsgo国内CSGO饰品皮肤开箱网站官方链接:www.incsgo.gg注册登录自动免费获得$1.00美金取回状态:直接取回**优惠码:**csgogo(充值使用csgogo可增加5%充值金额)skinsdog狗网CSGO饰品皮肤开箱网站可直接取回官方链接:skinsdog.cc注册登录自动免费获得$0.8美金取回状态:直接取回**优惠码:**csgogo(注册使用送0.8美金)coolkaixiang.

全栈程序员-用户IM
2022年10月6日

发表回复

关注全栈程序员社区公众号