分享好友 最新动态首页 最新动态分类 切换频道
转:基于用户投票的排名算法系列
2024-12-27 10:35

但是,很多场合需要的是"所有时段"的排名,比如"最受用户好评的产品"。

这时,时间因素就不需要考虑了。这个系列的最后两篇,就研究不考虑时间因素的情况下,如何给出排名。

一种常见的错误算法是:

  得分 = 赞成票 - 反对票

假定有两个项目,项目A是60张赞成票,40张反对票,项目B是550张赞成票,450张反对票。请问,谁应该排在前面?按照上面的公式,B会排在前面,因为它的得分(550 - 450 = 100)高于A(60 - 40 = 20)。但是实际上,B的好评率只有55%(550 / 1000),而A为60%(60 / 100),所以正确的结果应该是A排在前面。

Urban Dictionary就是这种错误算法的实例。

另一种常见的错误算法是

  得分 = 赞成票 / 总票数

如果"总票数"很大,这种算法其实是对的。问题出在如果"总票数"很少,这时就会出错。假定A有2张赞成票、0张反对票,B有100张赞成票、1张反对票。这种算法会使得A排在B前面。这显然错误。

Amazon就是这种错误算法的实例。

那么,正确的算法是什么呢?

我们先做如下设定:

  (1)每个用户的投票都是独立事件。

  (2)用户只有两个选择,要么投赞成票,要么投反对票。

  (3)如果投票总人数为n,其中赞成票为k,那么赞成票的比例p就等于k/n。

如果你熟悉统计学,可能已经看出来了,这是一种统计分布,叫做"二项分布"(binomial distribution)。这很重要,下面马上要用到。

我们的思路是,p越大,就代表这个项目的好评比例越高,越应该排在前面。但是,p的可信性,取决于有多少人投票,如果样本太小,p就不可信。好在我们已经知道,p是"二项分布"中某个事件的发生概率,因此我们可以计算出p的置信区间。所谓"置信区间",就是说,以某个概率而言,p会落在的那个区间。比如,某个产品的好评率是80%,但是这个值不一定可信。根据统计学,我们只能说,有95%的把握可以断定,好评率在75%到85%之间,即置信区间是[75%, 85%]。

这样一来,排名算法就比较清晰了:

  第一步,计算每个项目的"好评率"(即赞成票的比例)。

  第二步,计算每个"好评率"的置信区间(以95%的概率)。

  第三步,根据置信区间的下限值,进行排名。这个值越大,排名就越高。

这样做的原理是,置信区间的宽窄与样本的数量有关。比如,A有8张赞成票,2张反对票;B有80张赞成票,20张反对票。这两个项目的赞成票比例都是80%,但是B的置信区间(假定[75%, 85%])会比A的置信区间(假定[70%, 90%])窄得多,因此B的置信区间的下限值(75%)会比A(70%)大,所以B应该排在A前面。

置信区间的实质,就是进行可信度的修正,弥补样本量过小的影响。如果样本多,就说明比较可信,不需要很大的修正,所以置信区间会比较窄,下限值会比较大;如果样本少,就说明不一定可信,必须进行较大的修正,所以置信区间会比较宽,下限值会比较小。

二项分布的置信区间有多种计算公式,最常见的是"正态区间"(Normal approximation interval),教科书里几乎都是这种方法。但是,它只适用于样本较多的情况(np > 5 且 n(1 − p) > 5),对于小样本,它的准确性很差。

1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式,被称为"威尔逊区间",很好地解决了小样本的准确性问题。

威尔逊置信区间的均值为

它的下限值为

Reddit的评论排名,目前就使用这个算法。

[参考文献]

  * How Not To Sort By Average Rating

上一篇介绍了"威尔逊区间",它解决了投票人数过少、导致结果不可信的问题。

举例来说,如果只有2个人投票,"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,但也带来了另一个问题:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后。

以IMDB为例,它是世界最大的电影数据库,观众可以对每部电影投票,最低为1分,最高为10分。

系统根据投票结果,计算出每部电影的平均得分。然后,再根据平均得分,排出最受欢迎的前250名的电影。

这里就有一个问题:热门电影与冷门电影的平均得分,是否真的可比?举例来说,一部好莱坞大片有10000个观众投票,一部小成本的文艺片只有100个观众投票。这两者的投票结果,怎么比较?如果使用"威尔逊区间",后者的得分将被大幅拉低,这样处理是否公平,能不能反映它们真正的质量?

一个合理的思路是,如果要比较两部电影的好坏,至少应该请同样多的观众观看和评分。既然文艺片的观众人数偏少,那么应该设法为它增加一些观众。

在排名页面的底部,IMDB给出了它的计算方法。

  - WR, 加权得分(weighted rating)。
  - R,该电影的用户投票的平均得分(Rating)。
  - v,该电影的投票人数(votes)。
  - m,排名前250名的电影的最低投票数(现在为3000)。
  - C, 所有电影的平均得分(现在为6.9)。

仔细研究这个公式,你会发现,IMDB为每部电影增加了3000张选票,并且这些选票的评分都为6.9。这样做的原因是,假设所有电影都至少有3000张选票,那么就都具备了进入前250名的评选条件;然后假设这3000张选票的评分是所有电影的平均得分(即假设这部电影具有平均水准);最后,用现有的观众投票进行修正,长期来看,v/(v+m)这部分的权重将越来越大,得分将慢慢接近真实情况。

这样做拉近了不同电影之间投票人数的差异,使得投票人数较少的电影也有可能排名前列。

把这个公式写成更一般的形式:

  - C,投票人数扩展的规模,是一个自行设定的常数,与整个网站的总体用户人数有关,可以等于每个项目的平均投票数。
  - n,该项目的现有投票人数。
  - x,该项目的每张选票的值。
  - m,总体平均分,即整个网站所有选票的算术平均值。

这种算法被称为"贝叶斯平均"(Bayesian average)。因为某种程度上,它借鉴了"贝叶斯推断"(Bayesian inference)的思想:既然不知道投票结果,那就先估计一个值,然后不断用新的信息修正,使得它越来越接近正确的值。

在这个公式中,m(总体平均分)是"先验概率",每一次新的投票都是一个调整因子,使总体平均分不断向该项目的真实投票结果靠近。投票人数越多,该项目的"贝叶斯平均"就越接近算术平均,对排名的影响就越小。

因此,这种方法可以给一些投票人数较少的项目,以相对公平的排名。

=================================================

"贝叶斯平均"也有缺点,主要问题是它假设用户的投票是正态分布。比如,电影A有10个观众评分,5个为五星,5个为一星;电影B也有10个观众评分,都给了三星。这两部电影的平均得分(无论是算术平均,还是贝叶斯平均)都是三星,但是电影A可能比电影B更值得看。

解决这个问题的思路是,假定每个用户的投票都是独立事件,每次投票只有n个选项可以选择,那么这就服从"多项分布"(Multinomial distribution),就可以结合贝叶斯定理,计算该分布的期望值。由于这涉及复杂的统计学知识,这里就不深入了,感兴趣的朋友可以继续阅读William Morgan的How to rank products based on user input

 

(完)转载自http://www.ruanyifeng.com/

 

 

参考文献:

How to Build a Popularity Algorithm You can be Proud of

How Hacker News ranking algorithm works

How Reddit ranking algorithms work

 

 

 

How Not To Sort By Average Rating

 

 

 

 

 

 

 

威尔逊区间下限来排名:

  * How Not To Sort By Average Rating

最新文章
深度解析几款国内主流的磁力搜索引擎
如今在互联网浩瀚的资源海洋里,无论是最新上映的电影还是最流行的音乐专辑,都能通过磁力搜索引擎迅速找到。现在,让我们一起来了解一下目前国内主流的老牌磁力搜索引擎。磁狐搜索:这款搜索引擎基于DHT协议的资源搜索应用,整合了多种磁
美国签证系统更新后更复杂了?!美区申请人注意了!
12月7日美国签证新系统全面启用!很多小伙伴都慌了!各种问题层出不穷!给大家梳理一下新美签系统变化及申请流程!往下看!一篇全搞定!01新美签系统主要变化02新美签系统申请攻略实操申请,大家可以根据如下的步骤一一进行操作,这份保姆级
高效建设攻略,搭建与优化关键步骤解析
搭建与优化是打造高效的关键。选择合适的和,确保稳定运行。设计简洁、直观的界面,提高用户体验。优化结构和内容,提高搜索引擎排名。定期并修复漏洞,保障安全。这些步骤将有助于打造一个高效、安全的。搭建优化在互联网迅猛发展的今天,
香港资料大全正版资料2024年免费|综合解答落实完美版220.300
香港资料大全正版资料2024年免费——综合解答完美版随着信息技术的快速发展,人们对于各类资料的需求也日益增长,香港作为一个国际化大都市,其资料种类繁多,涵盖了历史、文化、经济、教育等多个领域,本文将围绕香港资料大全正版资料展开
私域roi分析,告诉你怎么样的私域才能是合格的私域
市场营销获客工具【爱短链】全域跳转工具,打通私域引流关键一步:轻松将公域流量,引导至私域,通过链接点击直达,方便快捷,无风险提示跳转,助力企业/商家高速获客。》》点此获取链接我们关心如何如何来,如何保留,如何转化;也关心成
神经网络轻量化及硬件加速技术与应用
报告地点:吉林大学中心校区唐敖庆楼B521报告介绍1.神经网络轻量化及硬件加速技术与应用报告人简介姚美宝,吉林大学人工智能学院副教授,博士生导师,担任智能机器人实验室负责人。从事智能机器人,计算机视觉,控制理论及应用等研究,主要
谈谈“推荐系统”和“搜索引擎”两者间的关系、和异同点
原标题:产品经理需要了解:推荐系统和搜索引擎的关系注:本文作者结合自己的实践经验来为大家阐述推荐系统和搜索引擎两者之间的关系、分享自己的体会。从信息获取的角度来看,搜索和推荐是用户获取信息的两种主要手段。无论在互联网上,还
阿亮网创72计第2计:0基础1小时精通SEO,免费流量取之不尽(价值20万)
第2计:0基础1小时精通SEO,免费流量取之不尽(价值20万)在网赚圈有一个绝对真理:流量就等于钱,精准流量就等于很多钱。如何才能在完全免费的情况下, 源源不断的获取海量的精准流量? 纵观整个互联网,唯独seo能够做到。什么是seo?seo就
谷歌SEO优化时,为何internal page会替代home page显示?
在SEO的浩瀚世界里,每一个细节都关乎网站的生死存亡。我曾无数次深入探索,试图揭开谷歌搜索引擎的神秘面纱。今天,我想和大家聊聊一个有趣且至关重要的现象:在谷歌SEO优化过程中,为何internal page(内页)有时会替代home page(首页)
相关文章
推荐文章
发表评论
0评