Python文本情感分析_Python数据分析实战

Python文本情感分析_Python数据分析实战本文由来为了赚足学分丰富假期生活,初衷是分析老师对学生作业的评价和学生对老师的评价的。本来这个任务是在N多天前就应该完成了,无奈本人懒癌晚期+拖延症不想治疗,不是因为火烧眉毛就绝对没有今天的文章。本文旨在记录自己的学习过程,就这样,开干啦!序幕既然题目是“基于情感词典的文本情感分析”,那么情感词典就是必不可少的了。对于情感词典的要求:要包含积极的词语和消极的词语、每一种类的数量要足够多、包含足够广…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

本文由来

为了赚足学分丰富假期生活,初衷是分析老师对学生作业的评价和学生对老师的评价的。本来这个任务是在N多天前就应该完成了,无奈本人懒癌晚期+拖延症不想治疗,不是因为火烧眉毛就绝对没有今天的文章。本文旨在记录自己的学习过程,就这样,开干啦!

序幕

既然题目是“基于情感词典的文本情感分析”,那么情感词典就是必不可少的了。对于情感词典的要求:要包含积极的词语和消极的词语、每一种类的数量要足够多、包含足够广的范围。由此,拥有一个好的词典是非常有必要的。然后才是如何进行情感分析。

强大的snowNLP

其实就在今天,我发现了snowNLP这个Python的三方库,它可以方便的处理中文文本的内容,它有以下功能:

中文分词

词性标注

情感分析

文本分类

文本转拼音

繁体转简体

提取文本关键词

提取文本摘要

分割成句子

文本相似

很强大的有没有,膜拜作者大神。纵观这么多的功能真是让人眼花缭乱,其实这个题目只需要情感分析这一个功能就够了,情感分析的功能是:你给它一个句子,它给你一个positive值。比如你向它传递“你今天真的好美”,它会返回你“0.9838430726152845”,这个值就代表了“你今天真的好美”这句话有多么的positive,即这句话有多么的积极、正向,这就很符合题目的要求好不好。

安装snowNLP

强烈推荐这种方式!!!其实就本题目而言个人认为不安装snowNLP库会更方便一点,只要将下载的压缩包( 提取码:c6qz )解压后复制到pycharm的项目文件夹下就可以了,也可以点击这里下载我的程序文件(提取码:xeng),下载完解压后后使用pycharm打开emotion_analysis文件夹就可以了。

除了上面的方法,也可以正经安装。到目前为止snowNLP的最新版本是0.12.3,可以在终端下使用 pip install snownlp==0.12.3 来安装,如果是使用anaconda管理Python包的话可以使用conda install –channel https://conda.anaconda.org/roccqqck snownlp安装,因为网络的问题我安装了好几次都没有成功,conda install snownlp的方式也不好使,可以换一种方式安装,首先到官网手动下载snowNLP的压缩包,.zip或.tar.gz格式的,不想去官网下载的话可以点击百度云链接,提取码:pl3e ,解压,我解压到了桌面,之后打开Anaconda Prompt,cd到解压之后的文件夹内,如图,

QQ截图20200229184347.png

依次输入python setup.py build和python setup.py install,等待完成即可。

测试snowNLP

就在我满心欢喜的认为这次终于轻松加愉快地完成了任务的时候,positive当即给了我一jio,我测试了几组常见的语句,发现函数返回的positive值和现实差了八万十千里,在一阵慌乱中查阅了资料,发现原本的库训练的数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,心想之前的大费周章不是全白费了嘛。接着我又阅读了关于情感分析部分的源码,发现了解决的办法。

解决办法

话不多说,直接上代码:

classSentiment(object):

def__init__(self):

self.classifier = Bayes()

defsave(self, fname, iszip=True):

self.classifier.save(fname, iszip)

defload(self, fname=data_path, iszip=True):

self.classifier.load(fname, iszip)

defhandle(self, doc):

words = seg.seg(doc)

words = normal.filter_stop(words)

returnwords

deftrain(self, neg_docs, pos_docs):

data = []

forsent inneg_docs:

data.append([self.handle(sent), ‘neg’])

forsent inpos_docs:

data.append([self.handle(sent), ‘pos’])

self.classifier.train(data)

defclassify(self, sent):

ret, prob = self.classifier.classify(self.handle(sent))

ifret == ‘pos’:

returnprob

return1 – prob

classifier = Sentiment()

classifier.load()

deftrain(neg_file, pos_file):

neg_docs = codecs.open(neg_file, ‘r’, ‘utf-8’).readlines()

pos_docs = codecs.open(pos_file, ‘r’, ‘utf-8’).readlines()

globalclassifier

classifier = Sentiment()

classifier.train(neg_docs, pos_docs)

defsave(fname, iszip=True):

classifier.save(fname, iszip)

defload(fname, iszip=True):

classifier.load(fname, iszip)

defclassify(sent):

returnclassifier.classify(sent)

我在源码中关于情感分析的部分看到了train函数,并且函数的参数也简单明了。通过源码可以看到,snowNLP的sentiment模块是支持训练的,只需要将表示消极意义的文本和表示积极意思的文本当做参数传入到train函数中,然后再利用save函数保存训练好的文件即可,虽然我不知道源码的意思,但依据函数的命名和sentiment文件夹下文件的命名,我大胆地试了一下,果然可以训练文件。

成果

说了这么多没用的就是为了凑篇幅,下面来点重要的。

from snownlp import sentiment

sentiment.train(‘ntusd-negative.txt’, ‘ntusd-positive.txt’)

sentiment.save(‘sentiment.marshal’)

上面的是训练函数, ‘ntusd-negative.txt’,与’ntusd-positive.txt’分别是消极的与积极的词典文件名字,sentiment.train(‘ntusd-negative.txt’, ‘ntusd-positive.txt’)调用了sentiment模块下的train函数,用于训练情感词典,sentiment.save(‘sentiment.marshal’) 用于保存训练好的文件,保存的文件名字叫“ sentiment.marshal .3”,是一个.marshal.3文件,虽说上面写的是“ sentiment.marshal ”,但因为是Python3的缘故,会自动在文件后面加上“.3”,用以区分Python3之前版本产生的文件,但在程序中使用该文件时不需要添加“.3”,程序会自动在文件后面加上“.3”,别问我是怎么知道的

3.png

训练完后就要让程序引用我们训练的文件,上代码:

# data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),# ‘sentiment.marshal’)data_path = (“E:/emotion_analysis/sentiment.marshal”)

在sentiment文件夹内有一个__init__.py文件,修改其中data_path的值,将之前的代码注释掉,将data_path改为绝对路径,即 sentiment.marshal 所在的位置,比如我的 sentiment.marshal放在“E:/emotion_analysis/sentiment.marshal”,就把data_path改为“ E:/emotion_analysis/sentiment.marshal ”。

上面的都完成后,就要测试了,不说话了,上代码

fromsnownlp importSnowNLP

s = SnowNLP(“你今天真的好美”)

print(s.sentiments)

下面的是结果

image.png

关于情感词典

本文用到的情感词典是融合了N多位大牛整理出的词典,包括清华大学——李军中文褒贬义词典、台湾大学NTUSD、知网Hownet等等。请点击此处( 提取码:0fz8 )下载本文用到的情感词典,可也点击此处 (提取码:xeng) 下载我的完整程序。

写在最后

虽然这篇博客看起来很low,事实上也真的很low,不过看在这是我的第一篇博客的份上就凑合着看吧,关于snowNLP的源码到现在我也没有看懂,在这里立一个flag,三天之内看懂源码!

最后的最后

关于文本情感分析还有一种方法,就是给每一个词语赋予一个权值,越积极权值越大,越消极权值越小。处理文本时先分词,去掉一些不重要的词,对剩余的词语进行处理,不过这种方法我不会,具体可以参考这篇博客的上半部分。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/172423.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • spring espect XX but YY

    spring espect XX but YY注入和查找问题HSFConsumerbean,注入的是beanName=’实际接口名’,type=’HSFSpringConsumerBean’,造成Autowire时查询出来的类型不匹配MybatisMapper的autowire为什么没有类型不匹配的问题,注入时是Mapper的代理类,查询出来却直接是Mapper实现类?@autowiredpr…

    2022年10月21日
  • WiFi曝Krack重大漏洞,6大措施应对威胁!

    WiFi曝Krack重大漏洞,6大措施应对威胁!为什么80%的码农都做不了架构师?>>>…

  • 爱美眉aimeimei.pw整站下载、2G图片、上万数据

    爱美眉aimeimei.pw整站下载、2G图片、上万数据官网:http://www.aimeimei.pw美眉aimeimei.pw整站源码安装方法:1.把文件上传到你的站点的根目录,然后运行http://你的域名/install/index.php安装,根据提示填写好相关信息,点“下一步”…即可完成安装。注:若提示无法安装,页面出现DIY字样。请进入install文件夹,将install_lock.txt文件删掉。把index

  • 一个好玩的小游戏(纯C语言编写)

    一个好玩的小游戏(纯C语言编写)最近在看知乎是发现了一个这一个专栏https://zhuanlan.zhihu.com/c2game从中获取的许多知识,本文中的游戏也是从里面学到的,不过本人又自己加了一些功能。这是一个类似于飞机大战的游戏,不过目前代码量比较小,所以看起来非常简陋游戏界面如下更新日志,本人将原来的原来的代码有进一步的优化了一下,之前是只有一个非常小的战机现在更新后可以产生一个非常大的战机(看起来也更

  • 怎么复制网页不能复制的文字_网页文字无法复制

    怎么复制网页不能复制的文字_网页文字无法复制环景:win10专业版火狐浏览器92.01问题描述:有些网站上文字不能复制解决方案:1.打开XX文库网页2.按F12点击consle控制台,输入document.body.innerText3.找到要复制的文字复制即可

    2022年10月13日
  • CPU流水线指令「建议收藏」

    CPU流水线指令「建议收藏」CPU流水线指令执行示意图增加流水线深度,其实是有性能成本的。每增加一级流水线,就要多一级写入到流水线寄存器的操作。单纯地增加流水线级数,不仅不能提升性能,反而会有更多的overhead的开销。所以,设计合理的流水线级数也是现代CPU中非常重要的一点。我们其实并不能简单地通过CPU的主频,就来衡量CPU乃至计算机整机的性能。因为不同的CPU实际的体系架构和实现都不一样。同样的CPU主…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号