情感的强度分类_情感量表

全栈程序员-用户IM • 2022年8月23日上午7:16 • 未分类

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺
一、SO-HowNet

情感倾向强度值计算公式为：

情感的强度分类_情感量表

其中，Pwords代表正面情感种子词语集合，Nwords代表负面种子词语集合。

情感的强度分类_情感量表

word1和word2相似度就是各概念之间相似度的最大值。

计算两个义原相似度公式如下：

情感的强度分类_情感量表

其中，p1,p2为两个需要计算比较的义原，Depth(p)是义原层次体系中的深度，Spd(p1,p2)表示p1，p2两者在层次体系的重合度。

以上计算方式可以在github下载到源代码，直接调用该函数就可以计算两个单词的相似度，但是计算结果返回的值为0，即无法计算这两个词的相似度，个人理解是返回0，应该是其语义库中无法查询到该词(下载的情感词典中存在类似短语的词，或者成语，可能导致无法识别)。

二、SO-PMI

在文献：

情感的强度分类_情感量表

中Turney使用PMI（点态互信息量）来计算两个词的相关强度

情感的强度分类_情感量表

该值越大表示两个词语的相关程度就越强。

可以通过搜索引擎来计算PMI的值。一个词word的概率为搜索引擎返回hit值与总的搜索引擎返回的索引页面数比值。Word1与word2共同出现的概率同样如此计算。

因此，word1与word2的PMI值计算为：
情感的强度分类_情感量表

在实际应用中，也经常使用语料库来统计词语出现的概率。计算公式如下：

情感的强度分类_情感量表

其中，df(word)表示在语料中含有词语word的文档数目，N代表为语料数据集中文档总的数目。

所以，一个为知情感倾向词语word的情感倾向强度值计算为：

情感的强度分类_情感量表

Pwords是褒义情感种子词语的集合，Nwords是贬义情感种子的词语集合。（Pwords，Nwords可以取为语料数据集中hits最高的前100个词）

但是，在语料库中，如果一个词语出现概率较小时，可能得不到该词语的正确情感倾向。

三、情感词典分析流程

四、SO-PMI和SO-HowNet对比分析

关于SO-HowNet: 最近想通过HowNet来计算词语情感倾向强度值，但是经过不懈努力，发现词库中很多词无法计算情感倾向强度值，原因是：HowNet是董振东先生定义的一套词语知识库，里面根据语义表示了词与词的关系等信息，但是该词库是人工定义的有些词没有加入到知识库中，如“给力”，“正能量”，“坑爹”等词找不到义原。所以，如果确实要使用HowNet必须根据自己的实际工作构造自己的词语知识库，不过这个工作量相对较大，可行性不高。

关于SO-PMI：由于SO-HowNet存在以上缺点，基于统计的SO-PMI计算两个词的互信息，即计算词语在语料中出现的概率以及词语与词语在句子中同时出现的概率可用于提供计算词语倾向性的一种方法。该方法减少了人工编辑知识库的成本，完全依赖语料来决定词语的倾向性，比较有实际意义。但是该方法存在一个问题是，如果一个词出现概率比较小，可能得不到该词语的正确情感倾向。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/172439.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...