FM和FFM原理

FM和FFM原理模型用途FM和FFM,分解机,是近几年出的新模型,主要应用于广告点击率预估(CTR),在特征稀疏的情况下,尤其表现出优秀的性能和效果,也数次在kaggle上的数据挖掘比赛中拿到较好的名次。FM原理特征编码时常用的one-hot编码,会导致特征非常稀疏(很多0值)。常用的特征组合方法是多项式模型,模型表达式如下: y(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1nwijxixjy(x)=w…

大家好,又见面了,我是你们的朋友全栈君。

模型用途

FM和FFM,分解机,是近几年出的新模型,主要应用于广告点击率预估(CTR),在特征稀疏的情况下,尤其表现出优秀的性能和效果,也数次在kaggle上的数据挖掘比赛中拿到较好的名次。

FM原理

特征编码时常用的one-hot编码,会导致特征非常稀疏(很多0值)。常用的特征组合方法是多项式模型,模型表达式如下: 

y(x)=w0+i=1nwixi+i=1nj=i+1nwijxixjy(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1nwijxixj



其中
xixi
表示第i列特征,
nn
表示特征数,
w0,wi,wijw0,wi,wij
为模型参数。模型参数为
n2n2
个。在对模型进行训练时,采用SGD(随即梯度下降),由于特征较稀疏,大部分
wijwij
的梯度值为0,那么参数
wijwij
的值就不准确,会影响模型的效果。 


FM模型,将参数
wijwij
对应的矩阵
WW
,利用矩阵分解表示为
W=VTVW=VTV
, 矩阵
VV
Rk×n∈Rk×n
, 可以通过调节k来调节模型的泛化能力。 


k影响



FM模型则表示为: 

y(x)=w0+i=1nwixi+i=1nj=i+1n<vi,vj>xixjy(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1n<vi,vj>xixj



模型参数减少为kn个。训练方法还是采用SGD,在预测时,可以通过下式将计算复杂度从
O(kn2)O(kn2)
降低为
O(kn)O(kn)
: 

i=1nj=i+1n<vi,vj>xixj=12f=1k((i=1nvi,fxi)2i=1n(vi,fxi)2)∑i=1n∑j=i+1n<vi,vj>xixj=12∑f=1k((∑i=1nvi,fxi)2−∑i=1n(vi,fxi)2)

FFM 原理

FFM模型是在FM特征组合的基础上给特征加上了field属性,于是模型表示为 

y(x)=w0+i=1nwixi+i=1nj=i+1n<vi,fj,vj,fi>xixjy(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1n<vi,fj,vj,fi>xixj



其中
fifi
表示特征i所属的field,需要训练的
VV

n×k×fn×k×f
,
ff
为field的个数,具体案例见
ppt
 


由于FFM加入field,使得训练和预测过程参数计算不能简化,复杂度为
O(kn2)O(kn2)

参考文献

  1. http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html
  2. ffm源码git

转自:https://blog.csdn.net/Leo00000001/article/details/71330927?locationNum=13&fps=1

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/143838.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • javah命令详解「建议收藏」

    javah命令详解「建议收藏」概述:最近在写c++/c的一个小的项目,需要打成动态库,供java使用。就对java调用c++/c代码做了简答了解,在此做记录。jni开发第一步,就是用javah命令生成生成c\c++头文件。javah命令参数详解cmd(默认配置jdkpath)执行javah-help如下图:-d和-o这两个参数用于设置生成的C\C++头文件的指定,该两参数选项不能同时使…

  • Java安全之JNDI注入

    Java安全之JNDI注入

    2020年11月20日
  • A站、B站、C站、D站、E站、F站、G站、H站、I站、J站、K站、L站、M站、N站、O站、P站、Q站、R站、S站、T站、U站、V站、W站、X站、Y站、Z站都是什么网站?Q站是什么?「建议收藏」

    A站、B站、C站、D站、E站、F站、G站、H站、I站、J站、K站、L站、M站、N站、O站、P站、Q站、R站、S站、T站、U站、V站、W站、X站、Y站、Z站都是什么网站?Q站是什么?「建议收藏」A站、B站、C站、D站、E站、F站、G站、H站、I站、J站、K站、L站、M站、N站、O站、P站、Q站、R站、S站、T站、U站、V站、W站、X站、Y站、Z站都是什么网站?A站https://www.acfun.cn/AcFun弹幕视频网-认真你就输啦(・ω・)ノ-(゜-゜)つロA站AcFunACG弹幕视频动画漫画游戏新番鬼畜东方初音DOTAMUGENAcFun是国内首家弹幕视频网站,这里有全网独家动漫新番,友好的弹幕氛围,有趣的UP主,好玩有科技..

  • 解决idea的控制台输出Tomcat日志乱码问题「建议收藏」

    解决idea的控制台输出Tomcat日志乱码问题「建议收藏」解决idea的控制台输出Tomcat日志乱码问题乱码原因由于window下的idea默认编码集都默认是GBK,而Tomcat目前版本是UTF-8,所以会出现乱码。第一种解决方案:将Tomcat输出日志的编码改为GBK在Tomcat的config目录下有一个logging.properties文件,文件中可以在五个地方设置编码,分别对应红色圆圈内五个日志输出文档(默认只选中了两个),将UTF-8的地方全改成GBK1catalina.org.apache.juli.FileHandler.l

  • 怎样从数组中删除给定元素_java数组包含某个元素

    怎样从数组中删除给定元素_java数组包含某个元素packageday21;importjava.util.Scanner;//调用Scanner一个简单的文本扫描器importstaticnet.mindview.util.Print.*;importjava.util.Random;publicclassShow{publicstaticvoidmain(String[]args){int[]a={0,1,2,3};for(inti:a).

  • USB转232和485的区别

    1串口串口,即串行通信接口,与之相对应的另一种接口叫并口,并行接口。两者的区别是,传输一个字节(8个位)的数据时,串口是将8个位排好队,逐个地在1条连接线上传输,而并口则将8个位一字排开,分别在8条连接线上同时传输,也就是进行数据传输的接口串口是一种物理接口形式,(硬件)通常指COM接口,当然这些接口有着很多标准接口标准:串口通信的接口标准有很多,而我们所了解的RS-23…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号