NLTK FreqDist

NLTK FreqDistFreqDisknltkFreqDisk函数能够统计数组当中单词出现的次数。text=[‘hadoop’,’spark’,’hive’,’hadoop’,’hadoop’,’spark’,’lucene’,’hadoop’,’spark’,’hive’,’hadoop’,’hadoop’,’spark’,’pig’,’zookeeper’,’flume’,’…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

FreqDisk

nltk FreqDisk函数能够统计数组当中单词出现的次数。

text = ['hadoop','spark','hive','hadoop','hadoop'
    ,'spark','lucene','hadoop','spark','hive'
    ,'hadoop','hadoop','spark','pig','zookeeper'
    ,'flume','stream','hadoop','hadoop','spark'
    ,'pig','zookeeper','flume','stream','hadoop'
    ,'hadoop','spark','pig','zookeeper','flume'
    ,'stream','hadoop','hadoop','spark','pig'
    ,'zookeeper','flume','stream','hadoop','hadoop'
    ,'spark','pig','zookeeper','flume','stream']
fdist = nltk.FreqDist(text)
for k in fdist:
    print(k+" "+str(fdist[k]))

Jetbrains全家桶1年46,售后保障稳定

hadoop 14
spark 8
hive 2
lucene 1
pig 5
zookeeper 5
flume 5
stream 5

FreqDisk::plot(n)

参数n,以折线图的方式展示频数最大的前n项数据。

fdist.plot(4)

在这里插入图片描述

FreqDisk::tabulate(n)

参数n,以表格的方式展示频数最大的前n项数据。

fdist.tabulate(5)

在这里插入图片描述

FreqDisk::most_common(n)

参数n,展示频数最大的前n项数据。

print(fdist.most_common(3))
[('hadoop', 14), ('spark', 8), ('pig', 5)]

FreqDisk::hapaxes()

展示频数最小的数据。

print(fdist.hapaxes())
['lucene']

FreqDisk::max()

展示频数最大的数据。

print(fdist.max())
hadoop
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/226787.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • RPC协议及其python实例[通俗易懂]

    RPC协议及其python实例[通俗易懂]RPC协议在OpenStack中广泛使用,那么什么是RPC协议?做什么用的那?搜索了一阵,有了一个大概的印象。RPC是一个应用层的协议,分为client端和server端,server端写好了具体的函数实现,client端远程调用该函数,返回函数的结果。好处是很明显的:首先是可以直接利用别的程序的部分功能,这是最基础的。更重要的,利用rpc可以实现系统的分布式架构,一方面有些功能比

  • emwin用户设置界面_强制刷新快捷键

    emwin用户设置界面_强制刷新快捷键1、在对话框回调函数中定时重绘按键_cbDialogHome(WM_MESSAGE*pMsg){ Switch(pMsg->MsgId){ CaseWM_INIT_DIALOG: WM_CreateTimer(pMsg->hWin,0,100,0);//创建窗口定时器 CaseWM_PAINT://窗口重绘 CaseWM_NOTIFY_

    2022年10月15日
  • Repository XXX does not have a Realease file「建议收藏」

    问题描述:E:Therepository‘http://ppa.launchpad.net/noobslab/deepin-sc/ubuntubionicRelease’doesnothaveaReleasefile.解决方案:cd/etc/apt/sources.list.dlssudormnoobslab-ubuntu-deepi…

  • 玩转SpringSession,重要知识点全面剖析!

    点击上方“全栈程序员社区”,星标公众号 重磅干货,第一时间送达 作者:怀瑾握瑜 www.cnblogs.com/lxyit/p/9672097.html 前言 在开始spring-…

  • Css中写RGB颜色

    Css中写RGB颜色在Css样式中写RGB颜色样式:

  • 如何训练一个词向量

    如何训练一个词向量现在在NLP领域,词向量是一切自然语言处理的基础,有了词向量我们就可以进行数据分析,文本聚类分类的一系列操作了。接下来我们就开始学习如何训练词向量,之前我们有介绍关于word2vec的博文word2vec算法理解和数学推导,这篇博文我们就一起来学习如何实现词向量的训练。首先我们运用的语料是我之前爬取的京东小米9的好评,训练一个关于手机类的词向量。数据如下所示:首先我们需要给数据进行分词…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号