文本相似度度量_文本相似度分析

文本相似度度量_文本相似度分析文本相似度度量就是衡量两个文本相似度的算法。主要包括两个步骤:将文本表示为向量(文本表示);衡量两个向量的相似度(相似度度量)。1文本表示文本表示也包括两部分:文本切分粒度(按什么粒度切分得到文本特征),如何构造特征(如何将文本特征转化成数值特征)。1.1文本切分粒度可以按照字,词,n-gram对文本进行切分;当文本是长文本时,也可以利用主题模型提取关键词,来减少词的维度。1.2文本特征构建特征构建就是如何将词袋模型中的词转化成向量表示。可以用one-hot,对应位置的权重可以是TF或者.

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

在这里插入图片描述

文本相似度度量就是衡量两个文本相似度的算法。主要包括两个步骤:将文本表示为向量(文本表示);衡量两个向量的相似度(相似度度量)。

1 文本表示

文本表示也包括两部分:文本切分粒度(按什么粒度切分得到文本特征),如何构造特征(如何将文本特征转化成数值特征)。

1.1 文本切分粒度

可以按照字,词,n-gram对文本进行切分;当文本是长文本时,也可以利用主题模型提取关键词,来减少词的维度。

1.2 文本特征构建

特征构建就是如何将词袋模型中的词转化成向量表示。可以用one-hot,对应位置的权重可以是TF或者是TF-IDF。也可以用分布式表示word2vec。或者是google发布的simhash。

simhash:

google发布的初衷是解决亿万级别的网页去重任务。通常用于长文本,降维将长文本压缩至几个关键词表示(如取TF-IDF权重大的top k个词)。然后将关键词编码成固定长度的二进制字符串。用固定长度的编码来表示一篇文章。

2 相似度度量

(1)欧式距离
L ( x 1 , x 2 ) = ( x 1 − x 2 ) 2 L(x_1,x_2)=\sqrt{(x_1-x_2)^2} L(x1,x2)=(x1x2)2

(2)余弦距离

用两个向量夹角的余弦值来衡量距离。
L ( x 1 , x 2 ) = x 1 ⋅ x 2 ∣ x 1 ∣ ∣ x 2 ∣ L(x_1,x_2)=\frac{x_1\cdot x_2}{|x_1||x_2|} L(x1,x2)=x1x2x1x2
(3)杰卡德距离
L ( A , B ) = ∣ A ⋃ B ∣ ∣ A ⋂ B ∣ L(A,B)=\frac{|A\bigcup B|}{|A\bigcap B|} L(A,B)=ABAB
(4)海明距离

海明距离主要用于simhash算法。

海明距离是用特征各维度不相等的个数来衡量差异性。

(5)最小编辑距离

字符串A不断增删改直至与字符串B相等,所需要的最少修改次数作为距离的度量。一般用动态规划来求解

参考:

[1]知乎:常见文本相似度计算方法简介

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/213554.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 碰撞圆周率_我让你背一遍圆周率

    碰撞圆周率_我让你背一遍圆周率#include”stdafx.h”#include<iostream>//碰撞后速度voidtxpz(doublem1,doublem2,double&v1,double&v2){ doublev1_=((m1-m2)*v1+2*m2*v2)/(m1+m2); doublev2_=((m2…

  • html字体下划线取消,取消下划线与显示下划线设置

    html字体下划线取消,取消下划线与显示下划线设置a标签下划线和勾销下划线样式text-decoration配置篇以下介绍DIVCSS组织时刻,默许情况下A超链接锚文本下划线几种情况兼容各阅读器设置装备摆设。1、取消A默认下划线在CSS代码中最前面设置CSS以下:a{text-decoration:none}多么就可设置默认状况下超链接标签A字体无论是默许情况下照常鼠标悬停超链接字体均不闪现下划线。2、兼容各大涉猎器默许A超链接全显示下划线岂论…

  • Git工具安装

    Git工具安装

  • 网页游戏公司遇到的政策难题有哪些_遇到退不出的网页怎么办

    网页游戏公司遇到的政策难题有哪些_遇到退不出的网页怎么办原文地址:http://www.chinagcn.com/news/show.php?itemid=99国务院412号令规定保留新闻出版总署“出版境外著作权人授权的电子出版物(包含互联网游戏作品)审

  • matlab画三维函数图像代码_excel绘制三维图形

    matlab画三维函数图像代码_excel绘制三维图形例:用plot3函数绘制三维螺旋线。>>t=linspace(0,10*pi,300);>>plot3(20*sin(t),20*cos(t),t,’r’,’linewidth’,2);>>holdon%图形保持>>quiver3(0,0,0,1,0,0,25,’k’,’filled’,’LineWidth’,2);>>quiver3(0,0,0,0,1,0,25,’k’,’fill

  • Linux SIGPIPE信号产生原因与解决方法

    Linux SIGPIPE信号产生原因与解决方法TCP四次握手产生SIGPIPE的原因SIGPIPE信号产生的原因:简单来说,就是客户端程序向服务器端程序发送了消息,然后关闭客户端,服务器端返回消息的时候就会收到内核给的SIGPIPE信号。TCP的全双工信道其实是两条单工信道,client端调用close的时候,虽然本意是关闭两条信道,但是其实只能关闭它发送的那一条单工信道,还是可以接受数据,server端还是可以发送…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号