内容推荐方式的算法

 

按照使用数据分:协同过滤:User-based协同过滤;Item-based协同过滤;基于模型的协同过滤基于...



最近因为首页做内容推荐方式,查了很多资料,目前采用最多的方式,可分为两大类:

第一部分分类:

一、按照使用数据分:

1、协同过滤:User-based协同过滤;Item-based协同过滤;基于模型的协同过滤

2、基于内容的推荐:用户内容属性和物品内容属性

3、社会化过滤:用户之间的社会网络关系

二、按照模型分:

1、最近邻模型:基于用户/物品的协同过滤算法

2、Latent Factor Mode:基于矩阵分解的模型

3、图模型:二分图模型,社会网络图模型

一、协同滤波(Collaborative Filtering, 简称 CF):

首先,要实现协同过滤,需要一下几个步骤:

收集用户偏好

找到相似的用户或物品

计算推荐

1、收集数据:

历史行为数据:购买历史、关注、收藏行为、发表了某些评论、给某个物品打了多少分

2、找到相似用户和物品:

计算用户间以及物品间的相似度。以下是几种计算相似度的方法:

欧几里德距离



皮尔逊相关系数



Cosine 相似度



Tanimoto 系数



3、进行推荐:

两种主流方法:

1、基于用户的协同过滤

基于用户的 CF 的基本思想相当简单,基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户。

计算上,就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,找到 K 邻居后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐。 下图给出了一个例子,对于用户 A,根据用户的历史偏好,这里只计算得到一个邻居 — 用户 C,然后将用户 C 喜欢的物品 D 推荐给用户 A。



2、和基于物品的协同过滤

基于物品的 CF 的原理和基于用户的 CF 类似,只是在计算邻居时采用物品本身,而不是从用户的角度,即基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好,推荐相似的物品给他。从计算的角度看,就是将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度,得到物品的相似物品后,根据用户历史的偏好预测当前用户还没有表示偏好的物品,计算得到一个排序的物品列表作为推荐。下图给出了一个例子,对于物品 A,根据所有用户的历史偏好,喜欢物品 A 的用户都喜欢物品 C,得出物品 A 和物品 C 比较相似,而用户 C 喜欢物品 A,那么可以推断出用户 C 可能也喜欢物品 C。



计算复杂度

Item CF 和 User CF 是基于协同过滤推荐的两个最基本的算法,User CF 是很早以前就提出来了,Item CF 是从 Amazon 的论文和专利发表之后(2001 年左右)开始流行,大家都觉得 Item CF 从性能和复杂度上比 User CF 更优,其中的一个主要原因就是对于一个在线网站,用户的数量往往大大超过物品的数量,同时物品的数据相对稳定,因此计算物品的相似度不但计算量较小,同时也不必频繁更新。但我们往往忽略了这种情况只适应于提供商品的电子商务网站,对于新闻,博客或者微内容的推荐系统,情况往往是相反的,物品的数量是海量的,同时也是更新频繁的,所以单从复杂度的角度,这两个算法在不同的系统中各有优势,推荐引擎的设计者需要根据自己应用的特点选择更加合适的算法。

适用场景

在非社交网络的网站中,内容内在的联系是很重要的推荐原则,它比基于相似用户的推荐原则更加有效。比如在购书网站上,当你看一本书的时候,推荐引擎会给你推荐相关的书籍,这个推荐的重要性远远超过了网站首页对该用户的综合推荐。可以看到,在这种情况下,Item CF 的推荐成为了引导用户浏览的重要手段。同时 Item CF 便于为推荐做出解释,在一个非社交网络的网站中,给某个用户推荐一本书,同时给出的解释是某某和你有相似兴趣的人也看了这本书,这很难让用户信服,因为用户可能根本不认识那个人;但如果解释说是因为这本书和你以前看的某本书相似,用户可能就觉得合理而采纳了此推荐。

二、基于内容推荐(content-based,简称:CB):

CB(content-based)应该算是第一代的个性化应用中最流行的推荐算法了。但由于它本身具有某些很难解决的缺点 比方说: item的特征抽取一般很难(Limited Content Analysis):如果系统中的item是文档(如个性化阅读中),那么我们现在可以比较容易地使用信息检索里的方法来“比较精确地”抽取出item的特征。但很多情况下我们很难从item中抽取出准确刻画item的特征,比如电影推荐中item是电影,社会化网络推荐中item是人,这些item属性都不好抽。其实,几乎在所有实际情况中我们抽取的item特征都仅能代表item的一些方面,不可能代表item的所有方面。这样带来的一个问题就是可能从两个item抽取出来的特征完全相同,这种情况下CB就完全无法区分这两个item了。 再加上在大多数情况下其精度都不是最好的,目前大部分的推荐系统都是以其他算法为主(如CF),而辅以CB以解决主算法在某些情况下的不精确性(如解决新item问题)。但CB的作用是不可否认的,只要具体应用中有可用的属性,那么基本都能在系统里看到CB的影子。组合CB和其他推荐算法的方法很多,最常用的可能是用CB来过滤其他算法的候选集,把一些不太合适的候选(比如不要给小孩推荐偏成人的书籍)去掉。

主要步骤分三步:

1、item特征提取

2、利用用户喜欢过的item的特征数据,来学习出该用户的喜好模型

3、有了item特征和用户喜好模型,就可以进行最有推荐了。和ng教授的推荐系统那一章原理基本一样

在Andrew的机器学习的recommendationsystem design那一章里讲的就是基于内容的推荐,但是它的第三小节,标题为CollaborativeFiltering技术,却不太明白了(有大牛或者可以帮我答疑解惑一下)。了解了一下,它所使用的算法是矩阵分解,他说矩阵分解=协同过滤?

SVD(Singular Value Decomposition)奇异值分解:

根据已有的评分情况,分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度,最后再反过来根据分析结果预测评分。

例子:

N行M列的评分矩阵R(R代表第u个用户对第i个物品的评分),分解成一个N行F列的用户因子矩阵P(P[k]表示用户u对因子k的喜好程度)和一个M行F列的物品因子矩阵Q(Q[k]表示第i个物品的因子k的程度)。用公式来表示就是

R = P * T(Q) //T(Q)表示Q矩阵的转置

下面是将评分矩阵R分解成用户因子矩阵P与物品因子矩阵Q的一个例子。R的元素数值越大,表示用户越喜欢这部电影。P的元素数值越大,表示用户越喜欢对应的因子。Q的元素数值越大,表示物品对应的因子程度越高。分解完后,就能利用P,Q来预测Zero君对《七夜》的评分了。按照这个例子来看,Zero君应该会给《七夜》较低的分数。因为他不喜欢恐怖片。注意不要纠结图中的具体数值,因为那些数值是我随便填上去的。



实际上,我们给一部电影评分时,除了考虑电影是否合自己口味外,还会受到自己是否是一个严格的评分者和这部电影已有的评分状况影响。例如:一个严格评分者给的分大多数情况下都比一个宽松评分者的低。你看到这部电影的评分大部分较高时,可能也倾向于给较高的分。在SVD中,口味问题已经有因子来表示了,但是剩下两个还没有相关的式子表示。因此有必要加上相关的部分,提高模型的精准度。改进后的SVD的公式如下:

R = OverallMean + biasU + biasI + P * T(Q) (1) 其中OverallMean表示所有电影的平均分,biasU表示用户评分偏离OverallMean的程度,biasI表示电影评分偏离OverallMean的程度,P,Q意思不变。特别注意,这里除了OverallMean之后,其它几个都是矩阵。

分解完后,即(1)式中的五个参数都有了正确的数值后,就可以用来预测分数了。假设我们要预测用户u对电影i的评分:



bu表示第u个用户的偏离程度,bi表示第i部电影的偏离程度,pu表示第u个用户的因子爱好程度,qi表示第i部电影的因子程度。

SVD实现:

在第一部分的例子中,你也许会有疑问:明明评分矩阵有一个元素的值是空的,为什么还能得到两个完整的矩阵P和Q呢?原因是那两个矩阵是通过学习(learning)得到的。SVD使用随机梯度下降(stochasticgradient descent)学习(1)式中除了OverallMean之外的参数。学习过程可以概括成这样:先给各个参数一个初值,然后利用这些参数进行预测,并将预测结果与已知评分进行对比,最后根据对比结果修正各个参数。更准确点的说法是调整参数的值,使得以下式子能取到最小值:



ALPHA表示所有训练样本。被第一个圆括号括着的部分表示当前的预测结果与实际值的偏差。被第二个圆括号括着的部分是为了防止过拟合(overfitting)。

以上就是SVD实现时的主要思想了,至于具体实现可以参考该作者的代码。这个实现版本在movielens1M上的效果比《A Guideto Singular Value Decomposition for Collaborative Filtering》中提到的要好一点点。这里,其主要提一下实现SVD时要注意的地方:

a. 更新qi时,要先保存

b. 预测分数时,范围要限制在最小值和最大值内

此外,这是原作者找到的一些有用的建议:

a. 所有参数的regularization值是一样的,不用特别区分bu,bi和 p,q

b. bu, bi不需要初始化,全部设成0

c. P,Q应该的初始化,一般使用 0.1 * rand(0,1) / sqrt(dim) dim指特征的维数


    关注 需求


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册