如何评估词向量?「建议收藏」

如何评估词向量?「建议收藏」如何评估词向量?目前词向量的评估一般分为两大类:extrinsic和intrinsicevaluation即内部评估和外部评估。内部评估内部评估直接衡量单词之间的句法和语义关系。这些任务通常涉及一组预先选择的查询术语和语义相关的目标词汇,我们将其称为queryinventory。similarity相关性度量当前绝大部分工作(比如以各种方式改进wordembedding)都…

大家好,又见面了,我是你们的朋友全栈君。

如何评估词向量?

目前词向量的评估一般分为两大类:extrinsic 和 intrinsic evaluation

即内部评估和外部评估。

内部评估

内部评估直接衡量单词之间的句法和语义关系。这些任务通常涉及一组预先选择的查询术语和语义相关的目标词汇,我们将其称为query inventory

similarity 相关性度量

当前绝大部分工作(比如以各种方式改进word embedding)都是依赖wordsim353等词汇相似性数据集进行相关性度量,并以之作为评价word embedding质量的标准。然而,这种基于similarity的评价方式对训练数据大小、领域、来源以及词表的选择非常敏感。而且数据集太小,往往并不能充分说明问题。

评价数据集往往是成对的单词,两个单词的embedding余弦相似度计算出来应该具有较高的相关性(Spearman或Pearson)和人的主观评价分数。

word analogy 类比推理

假设给了一对单词 (a , b) 和一个单独的单词c,task会找到一个单词d,使得c与d之间的关系相似于a与b之间的关系,举个简单的例子:(中国,北京)和 日本,应该找到的单词应该是东京,因为北京是中国的首都,而东京也是日本的首都。 在给定word embedding的前提下,task一般是通过在词向量空间寻找离(b-a+c)最近的词向量来找到d。

此方法来源于Mikolov et al. (2013a),并流行开来。

外部评估

应用到下游任务

比如词性标注、命名实体识别、句法分析、句子分类等,将词向量作为输入,衡量下游任务指标性能的变化。

但这种评估只能方法只是提供了一种证明embedding优点的方法,而不清楚它是如何与其他衡量指标联系其他的。也就是说,基于具体应用的评价是一种间接方式,中间还隔了一层。

虽说如此,根据论文Evaluation methods for unsupervised word embeddings,还是这种方法最好,并且此论文提出了新的评估方法。

可视化

也可以做可视化来展示,使用t-sne等

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/139736.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Laravel 队列发送邮件

    Laravel 队列发送邮件

    2021年10月26日
  • 宿主机和虚拟机的网络_vmware独享宿主机网卡

    宿主机和虚拟机的网络_vmware独享宿主机网卡问题描述:宿主机为win10家庭版,虚拟机为Centos7,上午还可以正常的进行互通,中间应该是弹出来一个外设的接入通知,其他的没有什么明显的操作,下午就不能互相访问了,原因不明。解决方法:首先检查虚拟机的网络配置,分为如下几步:1、编辑–>虚拟机网络编辑器,选择桥接模式,同时选择要桥接的网络:这个网路需要和宿主机中的网络保持一致,如果宿主机中存在多个网络连接,比如无线连接和有线连接,那就根据实际需要,看虚拟机需要连接到哪个网络中,就对应选择。选择完之后,确

  • 基于51单片机的八位流水灯(三种形式)

    基于51单片机的八位流水灯(三种形式)写一下寒假做的51小项目。基于AT89C51的流水灯:流水灯共八个,可以实现交替闪烁,一起闪烁,左右流水灯等效果。模式一:按动key1,实现1,3,5,7和2,4,6,8交替闪烁;模式二:按动key2,实现D1→D8流水灯效果;模式三:按动key3,实现全部闪烁效果,时间间隔为0.5秒;模式四:按动key4,实现D8→D1流水灯效果;模式1:使用P1的取反和delay延时实现模式2…

  • eclipse怎么导入java文件_Eclipse如何导入JAVA工程?如何将项目导入Eclipse中?

    eclipse怎么导入java文件_Eclipse如何导入JAVA工程?如何将项目导入Eclipse中?Eclipse如何导入JAVA工程?很多用户在学习Eclipse的过程中都会不小心把项目给删除了,到这里,笔者要先说一下“没关系,先不要慌张”,如果你把项目删除了,是可以通过导入的方法找回来的。具体方法见下文。Eclipse如何导入JAVA工程?1、在电脑桌面找到Eclipse快捷方式。2、双击打开Eclipse,在弹出的“WorkspsceLauncher”对话框中,点击后面的“Browse”…

  • composer如何查看已经安装了哪些拓展包(composer 如何使用)

    composer如何查看已经安装了哪些拓展包(composer 如何使用)

  • 适用于protel99SE初学者

    适用于protel99SE初学者本文适合零基础者学习protel99SE很多网友渴望自己设计电路原理图(SCH)、电路板(PCB),同时希望从原始SCH到PCB自动布线、再到成品PCB电路板的设计周期可以缩短到1天以内!是不是不可能呢?当然不是,因为现在的EDA软件已经达到了几乎无所不能的地步!由于电子很重实践,可以说,不曾亲自设计过PCB电路板的电子工程师,几乎是不可想象的。很多电子爱好者都有过学…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号