python jieba库_Python jieba库的使用说明「建议收藏」

全栈程序员-用户IM • 2022年5月24日下午12:40 • 未分类

python jieba库_Python jieba库的使用说明「建议收藏」1、jieba库基本介绍(1)、jieba库概述jieba是优秀的中文分词第三方库-中文文本需要通过分词获得单个的词语-jieba是优秀的中文分词第三方库，需要额外安装-jieba库提供三种分词模式，最简单只需掌握一个函数(2)、jieba分词的原理Jieba分词依靠中文词库-利用一个中文词库，确定汉字之间的关联概率-汉字间概率大的组成词组，形成分词结果-除了分词，用户还可以添加自定义…

大家好，又见面了，我是你们的朋友全栈君。

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

– 中文文本需要通过分词获得单个的词语

– jieba是优秀的中文分词第三方库，需要额外安装

– jieba库提供三种分词模式，最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

– 利用一个中文词库，确定汉字之间的关联概率

– 汉字间概率大的组成词组，形成分词结果

– 除了分词，用户还可以添加自定义的词组

2、jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

– 精确模式：把文本精确的切分开，不存在冗余单词

– 全模式：把文本中所有可能的词语都扫描出来，有冗余

– 搜索引擎模式：在精确模式基础上，对长词再次切分

(2)、jieba库常用函数

3、jieba应用实例

4、利用jieba库统计三国演义中任务的出场次数

importjieba

txt= open(“D:\\三国演义.txt”, “r”, encoding=’utf-8′).read()

words= jieba.lcut(txt) #使用精确模式对文本进行分词

counts = {} #通过键值对的形式存储词语及其出现的次数

for word inwords:if len(word) == 1: #单个词语不计算在内

continue

else:

counts[word]= counts.get(word, 0) + 1 #遍历所有词语，每出现一次其对应的值加 1

items= list(counts.items())#将键值对转换成列表

items.sort(key=lambda x: x[1], reverse=True) #根据词语出现的次数进行从大到小排序

for i in range(15):

word, count=items[i]print(“{0:<5}{1:>5}”.format(word, count))

统计了次数对多前十五个名词，曹操不愧是一代枭雄，第一名当之无愧，但是我们会发现得到的数据还是需要进一步处理，比如一些无用的词语，一些重复意思的词语。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/142156.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

php 7.2 安装 mcrypt 扩展

php 7.2 安装 mcrypt 扩展

全栈程序员-用户IM
2021年10月29日
详解Nacos和Eureka的区别「建议收藏」

详解Nacos和Eureka的区别「建议收藏」1.Eureka是什么Eureka是SpringCloud微服务框架默认的也是推荐的服务注册中心,由Netflix公司与2012将其开源出来,Eureka基于REST服务开发,主要用于实现AWS云的中服务定位,以实现中间层服务器的负载均衡和故障转移，2018年7月份……………………………

全栈程序员-用户IM
2022年8月21日
个人总结 – JS逆向解析[通俗易懂]

个人总结 – JS逆向解析[通俗易懂]目前加密的方式总结有下面几点：对称加密（加密解密密钥相同）：DES、DES3、AES 非对称加密（分公钥私钥）：RSA 信息摘要算法/签名算法：MD5、HMAC、SHA 前端实际使用中MD5、AES、RSA，自定义加密函数使用频率是最高的几种加密方式配合次序：采用非对称加密算法管理对称算法的密钥，然后用对称加密算法加密数据，用签名算法生成非对称加密…

全栈程序员-用户IM
2022年6月19日
django formview_DWG TrueView

django formview_DWG TrueViewAPIView视图类在DRF中，推荐使用类视图，因为类视图可以通过继承的方式把一些重复性的工作抽取出来，而使得代码更加简洁。当然如果你不想使用类视图，那么就用@api_view装饰器包裹一下就可以。

全栈程序员-用户IM
2022年7月31日
GIS，Silverlight「建议收藏」

GIS，Silverlight「建议收藏」
想学习Silverlight开发GIS，有兴趣的大家一起学习，286448010QQ，zhuqiang4433@hotmail.comMSN

全栈程序员-用户IM
2022年7月17日
图文详解j2ee开发环境搭建全过程教程_数据库环境搭建

图文详解j2ee开发环境搭建全过程教程_数据库环境搭建在J2EE项目实施过程中需要搭建一个完整的开发环境，涉及到的技能和工具包含：JDK、Eclipse、Tomcat、MySQL、Maven、Navicat等等。这些环境对于具备工作经验的开发人员而言想必早已是轻车熟路，但是对于刚入门的新手来说还是颇为棘手。故，在此以文档形式详细记录J2EE开发环境搭建的整个过程。

全栈程序员-用户IM
2022年10月22日

发表回复

关注全栈程序员社区公众号