文本分类算法之–KNN算法的简介「建议收藏」

全栈程序员-用户IM • 2022年5月11日下午9:00 • 未分类

文本分类算法之–KNN算法的简介「建议收藏」1、KNN算法的简介kNN算法就是找到k个最相似的样本，这些样本所在的类，就是当前文档的所属的类。如下图：绿色圆圈表示你想分类的文本，其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k=3，就是取3个最相似的文本，那么1个蓝色框，2红色三角被选中，因为红色三角多，则绿色圆圈所属的类就是红色三角所在的类。如果k=5，3个蓝色框和2个红色三角选中，那么就属于蓝色框所

大家好，又见面了，我是你们的朋友全栈君。

1、KNN算法的简介

kNN算法就是找到k个最相似的样本，这些样本所在的类，就是当前文档的所属的类。如下图：绿色圆圈表示你想分类的文本，其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3，就是取3个最相似的文本，那么1个蓝色框，2红色三角被选中，因为红色三角多，则绿色圆圈所属的类就是红色三角所在的类。如果k = 5，3个蓝色框和2个红色三角选中，那么就属于蓝色框所属于的类。kNN你也可以取多个类别，就是绿色圆圈既属于蓝色框，也属于红色三角所属的类别。

kNN理解

2、KNN算法分类的一般过程的定义

（1）样本的选择

（2）中文文本分词（工具如下：Rwordseg,LTP,Bamboo,RostCM）

（3）特征的选择（CHI，IG等）

（4）向量空间模型的构建（将文档转换成VSM，每一个特征的值是由TF-IDF计算，特征项的个数是所有文本文档集合的总体弃掉重复的单词）

（5）将预测的文本分词与样本进行计算，主要使用余弦定理进行计算如下

文本分类算法之--KNN算法的简介「建议收藏」

（6）对结果进行测试是否满足准确率

（7）如果准确率太低，可以调整样本等一些其他的措施

KNN算法的缺点，如果训练的样本过多，则容易造成内存的溢出，因此我们可以改进KNN算法。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/144008.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

小程序常用的生命周期_小程序组件的生命周期

小程序常用的生命周期_小程序组件的生命周期小程序的生命周期说白了就是指程序从创建、到开始、暂停、唤起、停止、卸载的过程。我们大概从三个角度看一下小程序的生命周期。（1）：应用生命周期（2）：页面生命周期（3）：应用生命周期影响页面生命周期一：应用生命周期放一张从网上找的图：1：用户首次打开小程序，触发onLaunch（全局只触发一次）。:2：小程序初始化完成后，触发onShow方法，监听小程序显示。3：小程序从前台进入后台，触发onHide方法。:4：小程序从后台进入前台显示，触发onShow方法。5：小程序后台运行一

全栈程序员-用户IM
2022年10月25日
rk3399调试ov2659(camera模块@dvp接口)–移植过程

rk3399调试ov2659(camera模块@dvp接口)–移植过程刚接手某款硬件，嵌入式开发者往往对硬件熟悉，而对实现硬件行为的软件及其软件框架不太熟。所以，我们一般从硬件拓扑图入手，分析数据流和硬件动作过程来熟悉或编写软件框架，并向该框架填充一些逻辑/业务代码来实现最终的驱动代码。

全栈程序员-用户IM
2022年4月30日
SpringCloud系列之服务容错保护Netflix Hystrix

SpringCloud系列之服务容错保护Netflix Hystrix

全栈程序员-用户IM
2020年11月19日
ssl通关的概念（一个）

ssl通关的概念（一个）

全栈程序员-用户IM
2022年1月6日
anaconda跟pycharm_pycharm跟anaconda有什么区别

anaconda跟pycharm_pycharm跟anaconda有什么区别Anaconda是一个科学计算环境，当在电脑上安装好Anaconda3以后，就相当于安装好了Python，还有一些常用的库，如numpy，scrip，matplotlib等库。(如果你这里没有安装anaconda的话，直接安装了Python，装完Python想要使用这些库的话还要在cmd中运行pipinstall…

全栈程序员-用户IM
2022年8月26日
计算机二级考试数据结构与算法知识点_算法与数据结构是计算机两大基础

计算机二级考试数据结构与算法知识点_算法与数据结构是计算机两大基础按照自己的理解写的解题思路，如有错误希望指正。1.算法的复杂度： ①时间复杂度：执行算法所需的计算工作量（又叫：基本运算次数） ②空间复杂度：执行算法所需的内存它们是没有任何关系的！！！2.求二叉树序列类题目要点：前序—根左右中序—左根右后序—左右根例1：已知前序ABCDE，中序BCADE，求后序；同类型，已知任意两个求第三个解题思路：由前序知道A是根，结合中序，CB是左子树，DE…

全栈程序员-用户IM
2022年8月18日

发表回复

关注全栈程序员社区公众号