学习心得第由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“学习心得体会2”。
学习心得第二篇
在对于推荐系统有一个大概的了解之后,下一步的计划是阅读与推荐系统评价指标有关的论文。目标:首先对推荐系统评价指标的分类以及每个类别下的指标进行了解,然后再对每项指标的具体含义以及公式进行探究。
首先阅读的论文是《推荐系统评价指标综述》(电子科技大学学报-2012年)。测评方法
推荐系统的评测主要分为在线评价和离线评价两种方式。在线方式中最为常用的是A/B测试,即为了同一个目标制定两个方案,记录用户使用情况,比较两个方案的优劣。它的核心思想是:1)多个方案并行测试; 2)每个方案只有一个变量不同; 3)以某种规则优胜劣汰。所以唯一变量为推荐算法。离线测评是根据待评价的推荐系统在实验数据集上的表现,然后再根据下文将要提到的评价指标来衡量推荐系统的质量。
1.准确度指标
推荐的准确度是评价推荐算法最基本的指标,衡量的是推荐算法在多大程度上能够准确预测用户对推荐商品的喜欢程度。分为四类:预测评分准确度、预测评分关联性、分类准确度和排序准确度。1.1预测评分准确度
衡量的是算法预测的评分和用户的实际评分的贴近程度。平均绝对误差(mean absolute error,MAE)
平均平方误差(mean squared error,MSE)
平均方根误差(root mean squared error,RMSE)
标准平均绝对误差(normalized mean absolute error,NMAE)
rmax 和rmin 分别为用户评分区间的最大值和最小值。由于MSE和RMSE指标对每个绝对误差首先做了平方,所以这两个指标对比较大的绝对误差有更重的惩罚。NMAE由于在评分区间上做了归一化,从而可以在不同的数据集上对同一个推荐算法表现进行比较。
1.2 预测评分关联
衡量的是预测评分和用户真实评分之间的相关性。最常见的3种相关性指标分别是Pearson积距相关、Spearman相关和Kendall’sTau。
Pearson积距相关系数衡量的是预测评分和真实评分的线性相关程度,定义为:
ra和ra’分别表示商品的真实评分和预测评分。Spearman关联和Pearson关联定义的形式是一样的,唯一不同的是Spearman关联考虑的不是预测评分值,而是根据预测评分值所得到的排序值,即将式中分别替换成商品的真实排名和预测排名。
Kendall’sTau刻画两种排序值的统一程度,定义为
为了比较两个不同的弱排序序列,有一种归一化的基于距离的评价指标(normalized distance-based performance measure,NDPM),主要是想是先统计两个排序相悖的商品对个数C--以及两个排序兼容的商品对个数Cu。T表示用户实际评分中具有严格偏好差别的商品对个数。
1.3分类准确度
衡量的是推荐系统能够正确预测用户喜欢或者不喜欢某个商品的能力,尤其适用于那些有着明确二分喜好的用户系统。目前最常用的分类准确度指标有准确率、召回率、F1指标和AUC这四种。
准确率表示用户对推荐系统商品感兴趣的概率,在计算准确率的时候,最常用的做法是设定推荐长度列表L,根据预测评分商品排序,系统认为排在前L位的商品是用户最可能喜欢的,因此推荐给用户。
将系统中所有用户的准确率求平均得到系统整体的推荐准确率,M表示测试用户的数量
召回率表示一个用户喜欢的商品被推荐的概率,定义为推荐列表中用户喜欢的商品与系统中用户喜欢的所有商品的比率。
B表示用户喜欢的商品数。因为不能准确知道系统没有推荐的商品中哪些是用户喜欢的,因此召回率很难应用于在线评估。将系统中所有用户的召回率求平均得到系统整体的推荐召回率。
另一种常用的方法同时考虑准确率和召回率,因为两者是负相关的而且依赖于推荐列表长度。F1指标包含准确率和召回率,定义为:
上述的一系列指标对于没有二分喜好的系统不太适用,这时候往往采用AUC指标。AUC指标表示ROC(receiver operator curve)曲线下的面积,衡量一个推荐系统能够在多大程度上将用户喜欢的商品与不喜欢的商品分出来。
1.4排序准确度
排序准确度对于只注重分类准确度的系统来说太敏感了,考虑到排序位置的影响,用平均排序分来度量推荐系统的排序准确度。对于某一用户u来说,商品a的排序分定义为:
Lu 表示用户u的待排序商品个数。在离线测试中Lu 等于| O-E u T|,也即用户u在测试集中的商品数目(| | Eu P)加上未选择过的商品数目(| |O-E u|)。luα为待预测商品α 在用户u的推荐列表中的排名(此时推荐列表长度为Lu)。
排序分值越小,说明系统越趋向于把用户喜欢的商品排在前面。反之,则说明系统把用户喜欢的商品排在了后面。
2.基于排序加权的指标
半衰期效用指标(half-life utility)是在用户浏览商品的概率与该商品在推荐列表中的具体排序值呈指数递减的假设下提出来的,度量的是用户真实评分和系统默认评分值的差别。
ruα表示用户u对商品α 的实际评分;而 luα 为商品α 在用户u的推荐列表中的排名; d 为默认评分(如说平均评分值); h 为系统的半衰期,也即是有50%的概率用户会浏览的推荐列表的位置。
折扣累计利润(discounted cumulative gain,DCG)的主要思想是用户喜欢的商品被排在推荐列表前面比后面会更大程度上增加用户体验。
ri表示排在第 i 位的商品是否是用户喜欢的;ri=1 表示用户喜欢该商品;ri=0表示用户不喜欢该商品; b是自由参数多设为2; L为推荐列表长度。
排序偏差准确率(rank-biased precision,RBP)假设用户先浏览排在列表首位的商品然后依次按照固定的概率p浏览下一个,以1-p的概率不再看此类推荐列表。
3.覆盖率
是指算法向用户推荐的商品能够覆盖全部商品的比例。主要分为预测覆盖率、推荐覆盖率和种类覆盖率。
预测覆盖率表示可以预测评分的商品占所有商品的比例,定义为:
Nd表示系统可以评分的商品数目,N为所有商品数目。
推荐覆盖率表示系统能够为用户推荐的商品占所有商品的比例,定义为:
种类覆盖率表示推荐系统为用户推荐的商品种类占全部种类的比例,目前应用较少
4多样性和新颖性
一个好的推荐系统不仅准确率高的商品而且还有用户其他途径没了解到的商品。在推荐系统中,多样性分为两个层次,一是推荐系统对不同用户推荐不同商品的能力,而是推荐系统对一个用户推荐商品的多样性。
汉明距离定义为:
Qu t(L)表示用户 u 和 t 推荐列表中相同商品的个数。如果两个推荐列表是完全一致的,那么Hut(L)=0,反之如果两个推荐列表没有任何重叠的商品则 Hut(L)= 1。所有的用户对的汉明距离的平均值即是整个系统的汉明距离 H(L)。汉明距离越大,表示推荐的多样性越高。
新颖性也是影响用户体验的重要指标之一,他指的是向用户推荐非流行非热门商品的能力。一般用平均度来衡量,定义如下:
ka是商品的度。
以上所述的多样性和新颖性的指标大都比较粗糙并将有一定的局限性。