word2vec原理简述[通俗易懂]

word2vec原理简述[通俗易懂](原创)word2vec是将单词转为向量,并为后续应用机器学习的算法做准备。经典的模型有两种,skip-gram和cbow,其中,skip-gram是给定输入单词来预测上下文,而cbow相反,是给定上下文来预测输入单词。下面主要介绍skip-gram:1.skip-gram训练词对skip-gram首先设定所谓一个值(skip_window),作为一个单词选取它的上下文的单词…

大家好,又见面了,我是你们的朋友全栈君。

(原创)

word2vec是将单词转为向量,并为后续应用机器学习的算法做准备。

经典的模型有两种,skip-gramcbow

其中,skip-gram是给定输入单词来预测上下文,而cbow相反,是给定上下文来预测输入单词。下面主要介绍skip-gram:

1.skip-gram训练词对

skip-gram首先设定所谓一个值( skip_window),作为一个单词选取它的上下文的单词的数量,

这些词对,作为训练数据,如 “the quick brown fox jumps over lazy dog”,对于quick,有

(quick,the),(quick,brown),(quick,fox)三个词对,作为quick的训练标签。

2.word嵌入到k维空间,k维向量化

接下来是对语料中单词的向量化处理,首先将语料中不重复的单词都拿出来成为词汇表,

然后对其进行one-hot编码,如10000个单词,其中a编码为 [1,0,0,0….],这个时候单词已经转为了向量,但是只是这样并不能看出任意两词之间的相关性,而且词汇表如果大的话,导致维度灾难。

Hinton提出了映射到K维向量的思想,基于这个思想用一个简单的多分类的神经网络来训练得到这些K为向量。

输入层是n个one-hot编码的词,输出也是one-hot编码的词(对skipgram的词对进行训练),

隐含层为 k个神经元节点,含有n*k的权重矩阵,经过这层将词向量转换为k维向量,

再经softmax输出为n维的预测概率向量,优化残差函数,训练权重系数。

最终训练结束后,这个n*k的权重矩阵的每一行就作为该单词的k维向量了。

 

转载于:https://www.cnblogs.com/randomstring/p/10439384.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/145615.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • pycharm中格式化快捷键是什么_pycharm复制代码

    pycharm中格式化快捷键是什么_pycharm复制代码(1)快捷键:Ctrl+Alt+L可以将代码格式工整化(2)鼠标点击

  • vue集成activiti工作流_vue 异步渲染

    vue集成activiti工作流_vue 异步渲染一、安装px2rem-loadernpminstallpx2rem-loader二、配置build文件夹下utils.js,找到generateLoaders 修改如下配置constpx2remLoader={loader:’px2rem-loader’,options:{remUnit:75//设计稿宽度/10}…

    2022年10月28日
  • 在事务中执行批量复制操作SqlBulkCopy,SqlTransaction「建议收藏」

    在事务中执行批量复制操作SqlBulkCopy,SqlTransaction「建议收藏」    MicrosoftSQLServer包含名为bcp的常用命令行应用程序,用于快速将大文件批量复制到SQLServer数据库的表或视图中。使用SqlBulkCopy类可以编写提供类似功能的托管代码解决方案。还可以通过其他方式将数据加载到SQLServer表中(例如INSERT语句),但是SqlBulkCopy提供的性能要明显优于这些方式。   

  • 流量矿场[通俗易懂]

    第二个流量魔盒,流量矿场,扫码注册,实名秒通过不刷脸,现在活动:实名通过秒送1台魔盒机,25天产13个币,现在币开盘价格0.11美元,估计后期会涨,不要错过第二个流量魔盒。速度撸起来。线下已经5块回收了!注册链接:http://sina.lt/fyFz苹果APP下载地址:https://9dun.cn/s/zjmalls 安卓APP下载地址:https://9dun.cn/s/zjmallss…

  • 什么?女朋友生气哄不好?那是你没有这款神器!

    什么?女朋友生气哄不好?那是你没有这款神器!在一个阳光明媚的周日,我打开窗户呼吸了一口新鲜空气。阳光灿烂,岁月静好,又是一个约女朋友出去爬山吃饭看电影的好日子。想到女朋友的大眼睛,我脸上不禁洋溢起了幸福的微笑。打开微信,给女朋友发出去一个美好

  • LEfSe学习[通俗易懂]

    LEfSe学习[通俗易懂]参考:微生物组间差异分析之LEfSe分析LEfSe分析,你真的懂嘛?微生物LEfSe分析图表解读实栗操作:(待续)#!/bin/sh#inthisscriptweshowhowtoperformthebiomarkerdiscoveryoperation#usingLEfSe.ThescriptsrequireLEfSetobein…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号