注册

学界 | SIGIR 2018最佳论文:基于流行度推荐系统有效性的概率分析

该委员主席通常为一名副总理,成员则包括政府办公厅主任、国防部副部长等高官。


来源:机器之心

原标题:学界 | SIGIR 2018最佳论文:基于流行度推荐系统有效性的概率分析 选自SIGIR

原标题:学界 | SIGIR 2018最佳论文:基于流行度推荐系统有效性的概率分析

选自SIGIR 2018

作者Rocio Ca?amares、Pablo Castells

机器之心编译

参与:刘晓坤、思源、李泽南


ACM 国际信息检索研究与发展会议 SIGIR 2018 近日于美国密歇根州 Ann Arbor 举行。昨日,大会公布了最佳论文等奖项,来自马德里自治大学(Universidad Autónoma de Madrid)的学者 Rocio Ca?amares 和 Pablo Castells 的论文《Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness of Popularity in Recommender Systems》获得了最佳论文奖,微软与马萨诸塞大学阿姆赫斯特分校合作论文《Cross-Domain Regularization for Neural Ranking Models Using Adversarial Learning》获得最佳短论文奖。本文将对最佳论文进行简要介绍。

引言

使用 IR 方法论和指标用于推荐系统的评估在近年来发展迅速,已成为该领域中的常用实践方法,其将理解推荐看成排序任务 [14]。然而 IR 指标已被发现在推荐受欢迎条目(即很多人知道、喜欢、评分或交互的条目 [4,21,35])的奖励算法中有很强的偏见。同时,当前最佳的推荐算法也被发现在推荐多数人喜欢的条目时存在显而易见的偏见 [21]。人们可能自然地对常用的实验设置和最佳算法真实输出的可靠性提出质疑。


这个问题在 IR 方法论并没有得到特别的关注,因为流行度偏见在传统的搜索和 IR 任务中并没有出现,或者没有以如此奇怪的方式出现。推荐系统评估的常用数据集的流行度偏见非常强,即使是纯粹的和简单的流行度排序,相比当前最佳个性化算法 [14],也可能达到次优但不可忽视的推荐准确率。并且,实际上在高评分稀疏性条件下,其差距不一定是微不足道的。因此近期的研究开始着手解决这个问题,目前主要聚焦于证实和测量流行度偏见,并将其移除 [4,21,34,35]。但一个基础的问题仍然未得到回答:流行度偏见真的是必须要避免的吗?如果推荐流行的条目恰好是正确的,那么评估指标和推荐算法不是应该正好支持它们吗?

对产品的主要评价确实对人们而言是很有用的信息,这是一种简单、公平而有用的人类决策大部分时候默认的标准。并且我们实际上经常接受这个标准,例如,在缺乏足够证据来做出个人选择的时候,或作为从零开始的减少决策精力损耗的引导,或作为社会学习机制 [3]。从应用的角度上看,基于很多选择的推荐在很多情形中都是可接受的 [16],并只需要最少的开发技巧和维护成本。它确实是一个使用广泛的方法,很多应用以热门排行榜、最热卖排行榜、平均用户评分等的形式展示它。甚至在充分训练的个性化推荐系统中,热卖产品列表对于新用户而言仍然能提供很好的帮助。

多数人品味的有效性实际上有其统计意义:很多人喜欢的条目(根据观察到的用户活动)很有可能被很多(测试集中的)其他人所喜欢 [19]。然而,从实验的角度上看,如果观察结果有些微偏见,并且该偏见在训练数据和测试数据中一致,则推荐中的多数人偏见可能只是准确地猜测实验者的数据中隐含的用户偏好,而不是真正满足用户口味的产品。此外,多数人信号可能被来自真实用户赞赏的趋势所干扰 [5,29]。近期的研究表明多数人构造涉及某种程度的可能性,凭此不同的输出都有可能成为最流行的产品 [31]。此外,人们知道公众动态经常受到外部、内部信息以及偏见因素的影响 [26,27,29],例如大众媒体 [7]、市场营销、意见管理 [6]、算法偏见 [28],或社会整合 [13]。

因此问题是非常开放的,即流行度到底是不是真正高效的实现准确推荐的要素,它的效用在什么样的程度以及什么样的情况下有效,以及我们是否能恰当地度量它。我们通过考虑、分析和对比 IR 度量的两个方面来解决这个问题,即有偏和无偏 IR 度量。前者表示在一般离线实验中测量的值,其中相关信息并不是随机缺失的(MNAR)[23,24,25,34,35],后者表示在缺失信息可获得的情况下的真实度量值。

Rocio Ca?amares 等研究者在理论和实证层面都做了研究。在分析阶段,他们构建了问题的概率表达式。从修改推荐系统的概率排序原则 [30] 开始,研究者通过对比最佳排序分析了基于流行度的推荐。Rocio Ca?amares 等人发现流行度的有效性或无效性取决于三个主要变量的相互作用:条目相关性、用户对条目的发掘度以及用户决策与发掘条目之间的相互影响。他们确定了决定流行度的因素之间的关键概率依赖性,并且描述了由不同独立性假设定义的一组趋势,其中每个趋势都导致了特定的流行度行为模式。通过使用在众包平台构建的数据集,实证性观察也支持理论发现,其中该众包数据移除了公共数据集一些常见的偏见。

在其它研究结果中,Rocio Ca?amares 等研究者证明并展示了一种定性的矛盾,即在一般离线实验设置所测量的准确率与在无偏观察下估计的真实准确率之间的矛盾。研究者们确定了确保流行度可成为推荐中安全元素的条件,并且他们还描述并说明了这样一种相反情况,即流行度可能完全是一种误导的方向,它会指向比随机推荐更差的效用。研究者们进一步发现平均评分可能比评分的数量更加有效,它作为很多情况下的推荐的趋势,而这与有偏度量值所建议的正好相反。最后,研究者展示了他们的研究成果在个性化协同过滤算法中的意义。

图 1:非个性化流行度推荐的典型离线实验结果与个性化算法在两个公共数据集上的对比。

图 5:分析结果验证。a)栏对应 2 和 3a 的结论;c)对应 2 和 3c 的结论;d)匹配结论 1;b)例证了结论 4 中的一般场景。研究确认了观察到的和真实情况的准确率之间的几个不一致,并且发现了在情景 d 中流行度推荐的低于随机推荐的表现。我们还展示了(oracle)最佳非个性化排名的准确率。非统计学上显着的差异(2-tailed Student』s t-test 在 ?? < ??. ????时)在图中用红色双箭头表示。

论文:Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness of Popularity in Recommender Systems


论文链接:http://ir.ii.uam.es.gsmunlockww.com/pubs/sigir2018.pdf


摘要:在推荐系统的评估中使用 IR 方法论在近年来已成为惯例。然而,IR 指标在推荐受欢迎条目的奖励算法中被发现有很强的偏见,相同的偏见在当前最佳的推荐算法中也出现了。近期的研究证实并测量了这种偏见,并提出了相应的方法来避免它们。基础问题仍然是开放性的:即流行度是不是一种需要避免的偏见;它在推荐系统中是不是一种有用的和可靠的信号;或者它是否可能由实验偏见带来不公平的奖励。我们通过确定和建模可以决定(关于关键随机变量之间的依赖关系,涉及条目评分、发现和相关性)答案的条件,在形式层次上解决了这个问题。我们发现了保证有效流行度(或恰好相反)的条件,和反映真实有效性的测量指标值的条件,或定量地从中导出。我们通过经验结果例证并证实了理论发现。我们构建了一个完全没有通常公共数据中存在的偏见的众包数据集,其中我们解释了在常见带偏见离线实验设置的准确率,和通过无偏见观察数据测量得到的真实准确率之间的矛盾。

本文为机器之心编译,转载请联系本公众号获得授权

?------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

  • 好文
  • 钦佩
  • 喜欢
  • 泪奔
  • 可爱
  • 思考

凤凰网科技官方微信

凤凰新闻 天天有料
分享到:
友情链接: 三生沉浮 神印七星 风绝九天 冰火情缘之霸者无双 城瑶 特工学徒 全球之乱世 九九为王 窥天之途 吃鸡少女得人宠 当英雄降临 最强极限系统 主宰大逃杀 盘古宇宙 修罗神灵地狱界 力怼九天 东青歌传 黑夜游荡三十天 画笔成真 秒天秒地火影系统 王五修仙记 古之印章 神王之战火年代 迷茫之森 大歌帝 超级英雄的退休日常 梦魂域 至尊大帝之重生的大帝 像我这样的书 神的一万个名字 帝国的变节者 抗日传说之秦陵密钥 细魔之与天斗其乐无穷 浮生无道 大草原上的狼和羊 疯子宅男 女神辅助 诺亚奥特曼的复仇 巨斧长剑铭 坑仙学霸黑科技 碎玉,碎玉 网游之中土世界 寻武匿道 绝地求生之枪神凤凰 位面穿越之君临天下 神奇罗的大学生活 修真狂人在鬼都 带着战舰打深海 啄木鸟小组 女鬼夜叩门 异型录 尘世神 阡千劫 低俗的人生 墨灵动 黑暗瞾世 悲剧魔王成长史 鱼扉记 东方小队之斩枭 青青墨墨悠人心 天生少年 完美江湖之王者召唤系统 原武界 天神作 无铭木偶店 星火荧光 别瞎开挂 萌兽守则:一切以美食为上 斗破苍穹之重生后的萧炎 我所期盼的末世 异世界:另一个我 魔之将起 不可逆转的岁月 重生魔神回地球 天水劫 天武情侠 陈默:微光 九重天堑 帝霸诸天之炎黄界 女巫的成人礼 逍遥屠 乱宋风雨情 瞳之梦域 灭世仙葬 寂灭无极 寄生的剑客 悲鸣在传唱 赛尔号之守护之战 九星魔帝 旷世奇缘之传奇 游戏菜鸟 成为蓝龙开始的次元旅途 阿拉德大陆之翻天覆地 网游之我本帝王 诺亚幻想 赤潮——炎龙之始 猛鬼玄学院 创想三国 北灵秘史 勇者从异界归来 遗灵之躯 无量人间 星渊邪帝 霄影 风影狂刀之刀本无情 三生共度,彼岸花开 云起诸天 秦时明月之胜己 费伦的天魔 青鼎仙缘 网游之王者召唤师 风云变幻之唐汉无双 周老师的职业生涯 我有两个脑子 古剑圣尊 错爱之爱 月光约定 异兽猎手 合金侠 神族之光 堕想 不可呼唤的的真名 末势之争 起源之晶 帝国将才 一路青云 归永夜 穿越之万界之旅 魔界至尊在都市 星坎斗绝 龙皇穹灵 英雄联盟生存之战 闭幕之战 东方制造 剑道修罗神 无敌的我来到了异界 武成王 典狱司之Z机关 网游三国之宏图霸业 直播之特殊事件处理事务所 异界天尊重生都市 凌一阁 武装神姬——东煌 道门临世 过去心不可有之西域神剑 牢狱的瞳孔 小冰冰传奇 骑士序列之争 蠕体 那山有把龙牙剑 奥世独尊 武冥乱世 末流巫师 神鬼埃及 记忆中你的样子 三国之徐州天下 幻灵伏魔录 星魂城 元灵天地之晓魂残月 枭雄傲世 凡吞若虚 御武圣帝 万族列侠传 暗黑者的心 悠路飞仙 邪剑星眸 九耀神尊 末日之卷 我就钓个鱼 妖王的人类生活 鸣魔 傲歌逍遥行 我要当救世主 圣灵战团 真实世界的梦魇 死囚乐园 神的阿图姆 系统精灵才是真主角 墟天之道 斗虚传 一木棋牌 大神棋牌 大神棋牌 荣耀棋牌 一木棋牌 一木棋牌 娱乐兼赚钱的棋牌——一木棋牌 捕鱼棋牌完美融合的软件——真钱棋牌 吉祥棋牌,一个可以任你挑选多种棋牌模式任的平台 吉祥棋牌,一个拥有多种玩法的平台 集合各类棋牌游戏,任你挑选大神娱乐 神来棋牌 星空棋牌 真钱棋牌 吉祥棋牌苹果版 388棋牌 荣耀棋牌 吉祥棋牌安卓版 宝博棋牌 比特棋牌 即刻棋牌 永旺棋牌 豪利棋牌 京梦棋牌官网安卓版 追光娱乐棋牌 追光娱乐棋牌 追光娱乐 追光棋牌 一木棋牌苹果版 双赢彩票 500棋牌 500万-彩票 北京赛车app 江苏快三app 凤凰500万 凤凰彩票网 500万彩票 一木棋牌 大神棋牌 8亿彩票 大神棋牌app 大神娱乐棋牌 大神娱乐安卓版 大神娱乐作弊器 人人赢彩票 一木棋牌app