大数据-商品推荐系统介绍（上）

大家好，又见面了，我是你们的朋友全栈君。

这次我们介绍商品推荐系统：

推荐系统是什么
推荐引擎的分类
常见的推荐算法
混合的推荐机制(重要)
推荐系统架构
协同过滤的实现

推荐引擎解决的几个问题

主动的用户，通过类目和搜索进行引导，对结果页进行干预
被动的用户，通过用户的历史行为分析，推荐用户可能感兴趣的商品。
对商家来讲，帮助商家卖出更多的东西

常见的推荐算法

迄今为止，在个性化推荐系统中，协同过滤技术是应用最成功的技术。目前国内外有许多大型网站应用这项技术为用户更加智能（个性化、千人千面）的推荐内容。
我们主要介绍协同过滤算法

基于用户的协同过滤算法

第一代协同过滤技术是基于用户的协同过滤算法，基于用户的协同过滤算法在推荐系统中获得了极大的成功，但它有自身的局限性。

基于用户的协同过滤算法先计算的是用户与用户的相似度（兴趣相投，人以群分物以类聚），然后将相似度比较接近的用户A购买的物品推荐给用户B，专业的说法是该算法用最近邻居（nearest-neighbor）算法找出一个用户的邻居集合，该集合的用户和该用户有相似的喜好，算法根据邻居的偏好对该用户进行预测。

用户的购买记录
张三购买过，橘子，橙子、苹果、手机、卫生纸
王五购买过，橘子，橙子、苹果、手机、
李四购买过，橘子，橙子、苹果
张三和王五的相似度 4分
张三和李四的相似度 3分
王五和李四的相似度 3分
给李四进行推荐
与李四相似的用户是张三和王五，他们购买记录的汇总结构是
橘子，橙子、苹果、手机、卫生纸
去除已经重复购买过的物品，我们给李四推荐如下产品：
手机、卫生纸
冷启动问题：
由于基于用户的协同过滤算法是基于用户购买过的商品进行推荐，只有已经被用户选择（购买）的物品才有机会推荐给其他用户。对于一次都没有被购买过的商品，是一个巨大灾难，没机会出头了。
计算量大的问题：
对于一个拥有千万级活跃用户的电商网站来说，每计算一个用户都涉及到了上亿级别的计算。
解决方案：
将网站中不同的用户群体通过聚类算法计算出来。
400 *10 大类别
10个类别分别计算用户之间的相似度，其实就是计算400个用户之间相似度。
问题：
新用户怎么推荐？——–默认推荐
基于用户的协同过滤算法，推荐的商品都是已经被购买过的，对于没有被用户购买过的商品，该如何推荐？ ———混合推荐，将多种推荐模型的结果打乱混合推荐
商品数据和用户数量都很大的情况下，如何处理？—— 按照一定的聚类策略，将用户聚类/物品聚类

基于物品（item）的协同过滤算法

第二代协同过滤技术是基于物品的协同过滤算法，基于物品的协同过滤算法与基于用户的协同过滤算法基本类似。

他使用所有用户对物品或者信息的偏好，发现物品和物品之间的相似度，然后根据用户的历史偏好信息，将类似的物品推荐给用户。
这听起来比较拗口，简单的说就是几件商品同时被人购买了，就可以认为这几件商品是相似的，可能这几件商品的商品名称风马牛不相及，产品属性有天壤之别，但通过模型算出来之后就是认为他们是相似的。什么？你觉得不可思议，无法理解。是的，就是这么神奇！

举个例子：

物品购买记录
张三购买过，橘子，橙子、苹果、手机、卫生纸
王五购买过，橘子，橙子、苹果、手机、
李四购买过，橘子，橙子、苹果
当两个商品同时被购买，就认为相似。
橘子和橙子的相似度 3
橘子和苹果的相似度3
橘子和手机的相似度2
橘子和卫生纸的相似度 1
怎么推荐？
假设有新用户购买过橘子
那么相关商品有：橙子3、苹果3、手机2、卫生纸1，则会给他推荐这些物品。

其实基于项目的协同过滤推荐机制是 Amazon 在基于用户的机制上改良的一种策略，因为在大部分的 Web 站点中，物品的个数是远远小于用户的数量的，而且物品的个数和相似度相对比较稳定，同时基于项目的机制比基于用户的实时性更好一些。

但也不是所有的场景都是这样的情况，可以设想一下在一些新闻推荐系统中，也许物品，也就是新闻的个数可能大于用户的个数，而且新闻的更新程度也有很快，所以它的形似度依然不稳定。所以，其实可以看出，推荐策略的选择其实和具体的应用场景有很大的关系。

混合的推荐机制(重要)

在现行的 Web 站点上的推荐往往都不是单纯只采用了某一种推荐的机制和策略，他们往往是将多个方法混合在一起，从而达到更好的推荐效果。关于如何组合各个推荐机制，这里讲几种比较流行的组合方法。

加权的混合（Weighted Hybridization）: 用线性公式（linear formula）将几种不同的推荐按照一定权重组合起来，具体权重的值需要在测试数据集上反复实验，从而达到最好的推荐效果。
切换的混合（Switching Hybridization）：前面也讲到，其实对于不同的情况（数据量，系统运行状况，用户和物品的数目等），推荐策略可能有很大的不同，那么切换的混合方式，就是允许在不同的情况下，选择最为合适的推荐机制计算推荐。
分区的混合（Mixed Hybridization）：采用多种推荐机制，并将不同的推荐结果分不同的区显示给用户。其实，Amazon，当当网等很多电子商务网站都是采用这样的方式，用户可以得到很全面的推荐，也更容易找到他们想要的东西。
分层的混合（Meta-Level Hybridization）: 采用多种推荐机制，并将一个推荐机制的结果作为另一个的输入，从而综合各个推荐机制的优缺点，得到更加准确的推荐。

协同过滤的实现

收集用户偏好及标准化处理

要从用户的行为和偏好中发现规律，并基于此给予推荐，如何收集用户的偏好信息成为系统推荐效果最基础的决定因素。用户有很多方式向系统提供自己的偏好信息，而且不同的应用也可能大不相同，下面举例进行介绍：
在这里插入图片描述
在一般应用中，我们提取的用户行为一般都多于一种，关于如何组合这些不同的用户行为，基本上有以下两种方式：

将不同的行为分组：一般可以分为“查看”和“购买”等等，然后基于不同的行为，计算不同的用户 / 物品相似度。比如：“购买了该图书的人还购买了 …”，“查看了图书的人还查看了 …”
根据不同行为反映用户喜好的程度将它们进行加权，得到用户对于物品的总体喜好。一般来说，显式的用户反馈比隐式的权值大，但比较稀疏，毕竟进行显示反馈的用户是少数；同时相对于“查看”，“购买”行为反映用户喜好的程度更大，但这也因应用而异。

数据减噪和归一化

收集了用户行为数据，我们还需要对数据进行一定的预处理，其中最核心的工作就是：减噪和归一化。

减噪：用户行为数据是用户在使用应用过程中产生的，它可能存在大量的噪音和用户的误操作，我们可以通过经典的数据挖掘算法过滤掉行为数据中的噪音，这样可以是我们的分析更加精确。
归一化：如前面讲到的，在计算用户对物品的喜好程度时，可能需要对不同的行为数据进行加权。但可以想象，不同行为的数据取值可能相差很大，比如，用户的查看数据必然比购买数据大的多，如何将各个行为的数据统一在一个相同的取值范围中，从而使得加权求和得到的总体喜好更加精确，就需要我们进行归一化处理。最简单的归一化处理，就是将各类数据除以此类中的最大值，以保证归一化后的数据取值在 [0,1] 范围中。

进行的预处理后，根据不同应用的行为分析方法，可以选择分组或者加权处理，之后我们可以得到一个用户偏好的二维矩阵，一维是用户列表，另一维是物品列表，值是用户对物品的偏好，一般是 [0,1] 或者 [-1, 1] 的浮点数值。

相似度

当已经对用户行为进行分析得到用户喜好后，我们可以根据用户喜好计算相似用户和物品，然后基于相似用户或者物品进行推荐，这就是最典型的 CF 的两个分支

基于用户的 CF
基于物品的 CF。

关于相似度的计算，现有的几种基本方法都是基于向量（Vector）的，其实也就是计算两个向量的距离，距离越近相似度越大。
在推荐的场景中，在用户 – 物品偏好的二维矩阵中，我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。
在这里插入图片描述
常用的相似度计算方法：

欧几里德距离（Euclidean Distance）
皮尔逊相关系数（Pearson Correlation Coefficient）
Tanimoto 系数（Tanimoto Coefficient）
采用的临近原则一般是
固定数量的邻居：K-neighborhoods 或者 Fix-size neighborhoods
基于相似度门槛的邻居：Threshold-based neighborhoods

计算基于用户的 CF（User CF）

基于用户对物品的偏好找到相邻邻居用户，然后将邻居用户喜欢的推荐给当前用户。计算上，就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，找到 K 邻居后，根据邻居的
相似度权重以及他们对物品的偏好，预测当前用户没有偏好的未涉及物品，计算得到一个排序的物品列表作为推荐。
在这里插入图片描述
上图给出了一个例子，对于用户 A，根据用户的历史偏好，这里只计算得到一个邻居 – 用户 C，然后将用户 C 喜欢的物品 D 推荐给用户 A。

计算基于物品的 CF（Item CF）

基于物品的 CF 的原理和基于用户的 CF 类似，只是在计算邻居时采用物品本身，而不是从用户的角度，即基于用户s对物品的偏好找到相似的物品，然后根据用户的历史偏好，推荐相似的物品给他。

从计算的角度看，就是将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度，得到物品的相似物品后，根据用户历史的偏好预测当前用户还没有表示偏好的物品，计算得到一个排序的物品列表作为推荐。

在这里插入图片描述

下图给出了一个例子，对于物品 A，根据所有用户的历史偏好，喜欢物品 A 的用户都喜欢物品 C，得出物品 A 和物品 C 比较相似，而用户 C 喜欢物品 A，那么可以推断出用户 C 可能也喜欢物品 C。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/124661.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

大数据–商品推荐系统介绍（上）

推荐系统是什么

目的

推荐引擎的分类

常规分类

根据数据源进行区分

常见的推荐算法

基于用户的协同过滤算法

基于物品（item）的协同过滤算法

混合的推荐机制(重要)

推荐系统的应用场景

推荐系统架构

京东推荐系统架构

淘宝推荐系统架构

协同过滤的实现

收集用户偏好及标准化处理

数据减噪和归一化

相似度

计算基于用户的 CF（User CF）

计算基于物品的 CF（Item CF）

发表回复

大数据–商品推荐系统介绍（上）

推荐系统是什么

目的

推荐引擎的分类

常规分类

根据数据源进行区分

常见的推荐算法

基于用户的协同过滤算法

基于物品（item）的协同过滤算法

混合的推荐机制(重要)

推荐系统的应用场景

推荐系统架构

京东推荐系统架构

淘宝推荐系统架构

协同过滤的实现

收集用户偏好及标准化处理

数据减噪和归一化

相似度

计算基于用户的 CF（User CF）

计算基于物品的 CF（Item CF）

相关推荐

python tkinter窗口美化_jquery进度条插件

Eclipse和JDK安装教程（22年8月）[通俗易懂]

vue的响应式原理面试_vue面试题目

PHP Warning: Module ‘json’ already loaded in Unknown on line 0

notepad++注释快捷键[通俗易懂]

myeclipse-10.7-offline-installer-windows安装图解及注意事项

发表回复