皮尔逊相似度计算的例子(R语言)

皮尔逊相似度计算的例子(R语言)

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。


编译最近的协同过滤算法皮尔逊相似度计算。下顺便研究R简单使用的语言。概率统计知识。
一、概率论和统计学概念复习

1)期望值(Expected Value)
由于这里每一个数都是等概率的。所以就当做是数组或向量中全部元素的平均数吧。能够使用R语言中函数mean()。
2)方差(Variance)
皮尔逊相似度计算的例子(R语言)
方差分为population variance整体方差和sample variance样本方差,差别是整体方差除以N,样本方差除以N-1。

数理统计中经常使用样本方差,R语言的var()函数计算的也是样本方差。

详细原因是样本方差是无偏的(Unbiased),想刨根问底能够Google一下。

3)标准差(Standard Variance)
非常easy。标准差就是方差的平方根。

R语言中函数为sd()。

4)协方差(Covariance)
皮尔逊相似度计算的例子(R语言)
也分成整体协方差和样本协方差,差别同上。

R语言中函数为cov()。注意向量中有空元素(NA)时,比如稀疏矩阵中的一行,则要cov(x,y, use=’complete’)。

方差也能够看做是协方差的特例。也就是:var(x)=cov(x,x)。
这里仅仅列举了计算公式。看着有些头晕,详细还是看以下样例吧。一看就懂了。
二、类似度计算在协同过滤推荐算法中的地位

在协同过滤推荐算法中,无论是基于用户(User-based)还是基于物品(Item-based),都要通过计算用户或物品间的类似度,得到离线模型(训练学习过程)。
之后再利用排序和加权算法得到终于的推荐物品Top-N列表。

不同类似度算法的选择对终于推荐结果会产生非常大的影响。

1)余弦类似度(Cosine-based Similiarity)
2)相关性类似度(Correlation-based Similiarity)
这样的类似度计算使用的算法就是皮尔森。
3)修正余弦类似度(Adjusted Cosine-based Similiarity)
三、R语言入门简单介绍

Windows下的R语言安装包地址为:
http://cran.r-project.org/bin/windows/base/
下载exe后直接安装后,执行交互控制台就能够使用了。

皮尔逊相似度计算的例子(R语言)
经常使用的函数都能够从网上中查找到:
http://jiaoyan.org/r/?page_id=4100
要习惯的一点是。R语言的表达方式,比如在控制台输入:
> x<-c(1:10)
> x-mean(x)

[1] -4.5 -3.5 -2.5 -1.5 -0.5  0.5  1.5  2.5  3.5  4.5
x-mean(x)的含义是都向量x中每一个元素都减去x的平均数mean(x),能够说这样的表达方式高度抽象化。表现力非常强。

之后我们能够用其它函数对计算结果进行聚合:
> sum(x-mean(x))
[1] 0
四、皮尔森类似度(Pearson Similiarity)计算举例

以下以还有一篇文章中的用户-物品关系为例,说明一下皮尔森类似度的计算过程。


皮尔逊相似度计算的例子(R语言)

皮尔森类似度的原始计算公式为: 皮尔逊相似度计算的例子(R语言)
,不继续展开化简。
1)定义用户数组(向量)
user1<-c(5.0, 3.0, 2.5)
user5<-c(4.0, 3.0, 2.0)
2)计算方差
var(user1)=sum((user1-mean(user1))^2)/(3-1)=1.75
var(user2)=sum((user5-mean(user5))^2)/(3-1)=1
3)计算标准差
sd(user1)=sqrt(var(user1))=1.322876
sd(user5)=sqrt(var(user5))=1
4)计算协方差
cov(user1, user5)
=sum((user1-mean(user1))*(user5-mean(user5)))/(3-1)
=1.25
5)计算类似度
cor(user1, user5)
=cov(user1, user5) / (sd(user1)*(sd(user5)))
=0.9449112
五、数学特性和存在问题

以下1)和2)整理自维基百科:
1)代数特性
皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着X 和 Y能够非常好的由直线方程来描写叙述。全部的数据点都非常好的落在一条 直线上,且 Y 随着 X 的添加而添加。

系数的值为−1意味着全部的数据点都落在直线上,且 Y 随着 X 的添加而降低。

系数的值为0意味着两个变量之间没有线性关系。

因两个变量的位置和尺度的变化并不会引起该系数的改变。即它该变化的不变量 (由符号确定)。

也就是说,我们假设把X移动到a + bX和把Y移动到c + dY,当中a、b、c和d是常数。

并不会改变两个变量的相关系数(该结论在整体和样本皮尔逊相关系数中都成立)。我们发现更一般的线性变换则会改变相关系数。

2)几何学含义
对于没有中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。

对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也能够被视作由两个随机变量 向量 夹角theta 的余弦值(见下方)。

皮尔逊相似度计算的例子(R语言)
3)存在问题
这也就是为什么会导致User1和User4更为类似的原因了,虽然User4仅仅对Item101和103评分,可是这两个评分形成的直线与User1形成的直线趋势更为接近。

同一时候还有一个问题是,假设一些几何变换不会影响相关系数,则评分的高低也被忽略掉了,仅仅是分数的趋潜在影响。当然,这是对于矩阵0和1用户-购买的物品矩阵没有效果。

版权声明:本文博主原创文章。博客,未经同意不得转载。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/116914.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 加工机械双探头高频读写器CK-FR102AN用户开发手册「建议收藏」

    加工机械双探头高频读写器CK-FR102AN用户开发手册「建议收藏」加工机械双探头高频读写器CK-FR102AN用户开发手册CK-FR102AN系列双探头高频读写器是一款基于射频识别技术的高频RFID标签读卡器,读卡器工作频率为13.56MHZ,支持对I-CODE2、I-CODESLI等符合ISO15693国际标准协议格式标签的读取。FR102一款轻量型RFID读头,采用菲尼克斯定制外壳,体积小、自带工控箱安装滑轨卡扣,易安装。同时支持两个探头工作,通过电缆拉长的探头在加工机械应用场景上可以灵活安装,支持姆龙plc的ethernetip通讯。读写器选型型号

  • 白盒测试技术_静态白盒测试

    白盒测试技术_静态白盒测试覆盖率 它是度量测试完整性的一个工具,通常可以分为逻辑覆盖和功能覆盖。覆盖率=(被执行到的项数/总项数)*100%逻辑覆盖 逻辑覆盖是以程序内部的逻辑结构为基础设计测试用例的技术,属于白盒测试。      被测试模块的流程图语句覆盖 设计若干测试用例,运行被测程序,使每个可执行语句至少执行一次。 语句覆盖率=被评价到的语句数量/

  • 项目管理办法_企业项目管理

    项目管理办法_企业项目管理本文档的目的是为公司各个项目的项目管理工作提供指导,帮助项目组其他成员了解项目管理的要素,明确项目管理活动中的角色职责、协作流程、作业表单格式要求。本文档将规定项目管理中各角色的职责和权利,在进行协作

  • 什么是面向切面编程_简述面向切面编程思想

    什么是面向切面编程_简述面向切面编程思想学习完面向对象编程和面向接口编程,下一步就是面向切面编程,快来mark!

    2022年10月21日
  • EM算法详解+通俗例子理解[通俗易懂]

    EM算法详解+通俗例子理解[通俗易懂]文章目录1、总述2、定义3、感性例子:例子简介:加入隐变量zEM初级版EM进阶版例子总结4、Jensen不等式(前置知识)5、EM思想6、EM推导7、应用8、参考文献1、总述期望最大算法是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。EM算法是机器学习十大算法之一,或许确实是因它在实际中的效果很好吧。下面先来说说它的定义。gif演示2、定义EM…

  • 如何做好数据安全治理「建议收藏」

    如何做好数据安全治理「建议收藏」  数据安全问题贯穿数据全生命周期的各个环节。在新形势下,要做好数据安全治理,就要做好企业的数据安全防护能力建设,建立起一个强保障且动态化的安全保护机制。这个机制的攻坚点主要是三个方面:完善数据安全治理规划,提高数据安全技术防护能力,和加强数据安全审计。  1.完善数据安全治理规划  (1)评估数据安全现状  一般来说,组织进行数据安全治理的目标主要是两个:一是实现组织的合规保障;二是实现数据的充分开发利用,在安全的基础上谋发展。组织在进行数据安全治理时,应在这两个大方向的指引下,对组织内部的数

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号