推荐系统应该如何保障推荐的多样性?

首先,推荐系统的多样性并不应该是一个推荐系统追求的终极目标。
多样性,是手段,不是目标!
多样性,是手段,不是目标!
多样性,是手段,不是目标!
重要的事情重复三遍,为什么不能作为目标呢?因为:

1. 多样性很难量化。3个体育新闻+7个小姐姐和7个小姐姐+3个体育新闻,哪个更加多样呢?
2. 多样性不是越多越好,一次推荐 list 10 篇文章,各是不同的话题的,显然比较多样,但是你确定是更好的推荐结果吗?你肯定会说,多样性要“合适”就好,问题就在这里,合适的点在哪里呢?那一定是通过其他真正的结果指标来告诉你的。
3. 多样性对于每个人,每个场景来说,是不一样的,好坏的点不同。比如说我最近刚有了宝宝,那么我恨不得淘宝给我推荐的商品全都是母婴用品,多样性并不是一个特别重要的事情。

哪些指标是合理的呢?
1. 用户反馈(喷产品经理)后台里关于多样性的反馈数量,别笑,这个指标至少是越少越好的,是一个非常可以量化的指标。不过这个信号太稀疏了,不足以从中提取有统计意义的信息。倒是有可能发现一些明显的 bad case 或者 bug。
2. 用户的点击率、阅读时长、留存、分享、互动数据。这是推荐系统的 ground truth,如果你可以建立这些 ground truth 和多样性之间的关系,那显然可以去做一些工作。
记住,用一个真正的指标为准绳和目标去优化多样性,不要为了多样性而多样性!
比如如果你的推荐系统的优化目标是阅读时长,如果增加多样性可以提升时长,就去做,如果增加多样性不能够提升时长,那你就不要这么做。
多样性真正的背后的问题,在于点击率预估模型也好、时长或者什么 xx 预估模型也好,预测的是一个 point-wise 的问题。就是你给某个具有 x 属性的用户在 c 的上下文下看一个叫做 i 的内容,他的点击率、时长、xx 可能会是多少。
而实际中的问题叫做,你给某个具有 x 属性的用户在 c 的上下文下看一串叫做 <i1,i2,i3,i4…> 的内容列表,他的点击率、时长、xx 可能会是多少。
所以多样性的问题就在于你的业务实际要优化一个排列组合,你优化的只是某一个点,那么因为你的模型和你使用模型的业务场景不同,你拿到的结果自然不是最优。更通俗地说,你喜欢吃虾,给你上一桌全是虾的菜,大概率是一个失败的菜单,而一桌有鱼有虾有鸡有鸭的菜可能会更好。因为你每个都不喜欢的概率大大降低了。
你肯定会问,为什么不直接去建立一个模型,样本就用 list,然后直接对所有候选集的可能排列组合进行打分然后选出最优的内容排列组合呢?
不妨先假设你已经训练出了这样一个模型,假设你是做短视频推荐信息流的,当前推荐有100个可选候选集,那么你推出一刷5个短视频,需要遍历100*99*98*97*96这么多种可能性才能找到最优的组合,这显然是没有计算可行性的。
而实际上,你训练出这样的一个模型,也对你的样本量和计算基础设施有非常高的要求。

那么怎么办呢?
1. 老专家规则。比如说你一拍脑门,说一次推荐5条内容里必须有至少1个视频,至少来自于3个不同的分类。接着你 abtest 了一下,这么做的情况下,用户的负反馈减少了、时长提升了。其实这是大多数推荐系统在使用的一个 good practice。老专家规则有很多,无非是一些启发式的策略,你拍拍脑袋或者抄一抄别的推荐系统,就能得到答案,然后通过大量快速的 abtest 迭代测试找到对你的业务场景来说靠谱可行的策略(集合)。
2. 使用更长更丰富的召回拉链,保证更多样的内容可以进入排序阶段。只要系统不会挂,这往往是没有什么坏处的,除了你的云服务器账单会增长得更快。但是仅仅增加召回拉链的数量,并不能彻底解决多样性问题,因为你并没有改变预估模型的逻辑,只是提供了更多的候选集。
3. 建立一个模型,用一些贪心的方法,比如要么减少搜索空间,要么对这个空间的性质做一些理想假设来降维,来预测什么样的 list 组合是最优的。这里有很多牛逼的方法,比如最近 youtube 的一篇论文,比如阿里现在在采用的一些 list-wise 模型策略。几种朴素的方法:
① 分类的空间比 item 小多了,比如说你的内容一共也就10个分类,一刷10个,不考虑顺序,再删除掉一些完全不可能的组合,那么组合的空间可以降低到几十 – 几百个,又回到了一个典型的机器学习在线预估问题。你可以先预测这一刷要给这个人看哪些分类的内容,各几个。然后再有一个模型从这些分类里取他可能更喜欢的内容。
② 对多样性进行一个度量,比如说每个 item 通过模型或者某种东西 embedding 成一个64维向量,然后再设法降维到10。每一刷10个,那么10行10维向量长成的空间的体积或者说这个矩阵的行列式就表达了这10个 item 的多样性。你可以把这当成一个特征去算每个人对这个多样性的偏好。对于不同偏好的人,在最后 rerank 的时候设定一个阈值去进行裁剪。
③ 构造一个特别的样本,特征包含展示在每个 item 之前的几个 item 的可以泛化的特征 ( 比如说类目、term、tag ),列表生成的时候对候选集的 item 使用这个模型来从上到下打分生成。每个列表第一个就放全局最后的 item1,第二个就用这个模型预测当第一个位置是 item1 ( 这样的 item ) 的时候,item2 应该选哪个最好,以此类推。
④ 更多骚气而你能想到的idea,都可以去实验。

简单总结一下:
1. 多样性不是你追求的目标,但是多样性确实可以帮助你提升你真的应该关注的指标:比如说更少的用户投诉、更多的时长、点击。
2. 多样性问题的本质是 ctr 或类似预估问题是对单点最优进行预测,而我们真实业务实际上往往给出的是一个列表。求列表最优的问题计算空间过大,所以我们会用一些歪门邪道,要么直接拍个老专家规则,要么降低空间的维度或者复杂度来取巧解决。

文章作者
周开拓,第四范式推荐系统架构专家,先荐业务团队负责人。本科毕业于北京大学数学系,在 University Of Virginia 获得统计学硕士,曾任职于世界最大的农业机械生产商 John Deere、负责利用机器学习技术进行农业经济预测,后加入阿里巴巴,负责手机淘宝推荐系统。

335 thoughts on “推荐系统应该如何保障推荐的多样性?”

  1. Pingback: Beverly Bultron
  2. Pingback: Leandro Farland
  3. Pingback: Cory Chase MILF City
  4. Pingback: MILFCity
  5. Pingback: premium-domains
  6. Pingback: Assignment Assistance
  7. Pingback: organic antibacterial
  8. Pingback: Click Here
  9. Pingback: Click Here
  10. Pingback: Click Here
  11. Pingback: Click Here
  12. Pingback: Click Here
  13. Pingback: Click Here
  14. Pingback: Click Here
  15. Pingback: Click Here
  16. Pingback: Click Here
  17. Pingback: Click Here
  18. Pingback: Click Here
  19. Pingback: Click Here
  20. Pingback: Click Here
  21. Pingback: Click Here
  22. Pingback: Click Here
  23. Pingback: Click Here
  24. Pingback: Click Here
  25. Pingback: Click Here
  26. Pingback: robots remote control
  27. Pingback: robots remote control
  28. Pingback: Click Here
  29. Pingback: Click Here
  30. Pingback: Reputation Defenders
  31. Pingback: Click Here
  32. Pingback: Click Here
  33. Pingback: Reputation Defenders
  34. Pingback: Click Here
  35. Pingback: Click Here
  36. Pingback: Click Here
  37. Pingback: Click Here
  38. Pingback: Click Here
  39. Pingback: Click Here
  40. Pingback: Click Here
  41. Pingback: Click Here
  42. Pingback: Click Here
  43. Pingback: Click Here
  44. Pingback: Click Here
  45. Pingback: Click Here
  46. Pingback: Click Here
  47. Pingback: Click Here
  48. Pingback: Click Here
  49. Pingback: Click Here
  50. Pingback: grand rapids dentist
  51. Pingback: Click Here
  52. Pingback: Click Here
  53. Pingback: Click Here
  54. Pingback: Click Here
  55. Pingback: Click Here
  56. Pingback: Click Here
  57. Pingback: Click Here
  58. Pingback: Click Here
  59. Pingback: Click Here
  60. Pingback: Click Here
  61. Pingback: Click Here
  62. Pingback: Click Here
  63. Pingback: Click Here
  64. Pingback: Referral Program
  65. Pingback: Click Here
  66. Pingback: Click Here
  67. Pingback: Click Here
  68. Pingback: Click Here
  69. Pingback: Click Here
  70. Pingback: Click Here
  71. Pingback: Click Here
  72. Pingback: Click Here
  73. Pingback: Click Here
  74. Pingback: Click Here
  75. Pingback: Click Here
  76. Pingback: premium-domain-broker
  77. Pingback: domain-names
  78. Pingback: limited company setup
  79. Pingback: Google reviews
  80. Pingback: reputation defenders
  81. Pingback: 2023 Books
  82. Pingback: death
  83. Pingback: memorial
  84. Pingback: burial
  85. Pingback: deceased
  86. Pingback: birth records
  87. Pingback: IRA Empire
  88. Pingback: Chirurgie Tunisie
  89. Pingback: Chirurgie Tunisie
  90. Pingback: Chirurgie Tunisie
  91. Pingback: future university
  92. Pingback: Cultural diversity
  93. Pingback: Finance research
  94. Pingback: MIS research
  95. Pingback: GPA Calculation
  96. Pingback: engineering majors
  97. Pingback: Faculty Grievances
  98. Pingback: fue
  99. Pingback: fue
  100. Pingback: Prof. Hesham Arafat
  101. Pingback: Faculty Building
  102. Pingback: Pharmacognos
  103. Pingback: educational quality
  104. Pingback: Global Cultures
  105. Pingback: Dental Hospital
  106. Pingback: distance education
  107. Pingback: fue
  108. Pingback: Maillot de football
  109. Pingback: Maillot de football
  110. Pingback: Maillot de football
  111. Pingback: Maillot de football
  112. Pingback: Maillot de football
  113. Pingback: Maillot de football
  114. Pingback: Maillot de football
  115. Pingback: SEOSolutionVIP Fiverr
  116. Pingback: Fiverr Earn
  117. Pingback: Fiverr Earn
  118. Pingback: Fiverr Earn
  119. Pingback: Su HOOLED
  120. Pingback: fiverrearn.com
  121. Pingback: fiverrearn.com
  122. Pingback: fiverrearn.com
  123. Pingback: Advance-Esthetic LLC
  124. Pingback: fiverrearn.com
  125. Pingback: fiverrearn.com
  126. Pingback: cortexi
  127. Pingback: Freight Broker
  128. Pingback: austin frenchie
  129. Pingback: fiverrearn.com
  130. Pingback: clima hoy
  131. Pingback: weather today
  132. Pingback: fiverrearn.com
  133. Pingback: fiverrearn.com
  134. Pingback: mini french bulldog
  135. Pingback: designer kennel club
  136. Pingback: dog kennel
  137. Pingback: jute vs sisal rug
  138. Pingback: seo in Romania
  139. Pingback: seo in Australia
  140. Pingback: blogging
  141. Pingback: Piano Moving London
  142. Pingback: fluffy french bulldog
  143. Pingback: french bulldog colors
  144. Pingback: clima destin florida
  145. Pingback: Mail in phone repair
  146. Pingback: top Samsung phones
  147. Pingback: smartphones
  148. Pingback: future university
  149. Pingback: future university
  150. Pingback: future university
  151. Pingback: future university
  152. Pingback: future university
  153. Pingback: french bulldogs
  154. Pingback: Fiverr.Com
  155. Pingback: FiverrEarn
  156. Pingback: top university Egypt
  157. Pingback: six sigma
  158. Pingback: Grand piano storage
  159. Pingback: Piano service
  160. Pingback: FUE
  161. Pingback: Moving consultation
  162. Pingback: Secure storage
  163. Pingback: Furniture disassembly
  164. Pingback: FiverrEarn
  165. Pingback: FiverrEarn
  166. Pingback: FiverrEarn
  167. Pingback: Training Philippines
  168. Pingback: FiverrEarn
  169. Pingback: FiverrEarn
  170. Pingback: FiverrEarn
  171. Pingback: FiverrEarn
  172. Pingback: FiverrEarn
  173. Pingback: partners
  174. Pingback: menorescue website
  175. Pingback: fue
  176. Pingback: neuro zoom
  177. Pingback: Tips
  178. Pingback: FiverrEarn
  179. Pingback: FiverrEarn
  180. Pingback: FiverrEarn
  181. Pingback: live sex cams
  182. Pingback: live sex cams
  183. Pingback: FiverrEarn
  184. Pingback: FiverrEarn
  185. Pingback: texas french bulldogs
  186. Pingback: FiverrEarn
  187. Pingback: FiverrEarn
  188. Pingback: FiverrEarn
  189. Pingback: FiverrEarn
  190. Pingback: FiverrEarn
  191. Pingback: FiverrEarn
  192. Pingback: FiverrEarn
  193. Pingback: FiverrEarn
  194. Pingback: FiverrEarn
  195. Pingback: FiverrEarn
  196. Pingback: FiverrEarn
  197. Pingback: Oil
  198. Pingback: seo company new york
  199. Pingback: wix seo specialist
  200. Pingback: rings
  201. Pingback: Situs Slot Online
  202. Pingback: Situs Slot Online
  203. Pingback: Scientific Research
  204. Pingback: Kuliah Termurah
  205. Pingback: FiverrEarn
  206. Pingback: FiverrEarn
  207. Pingback: FiverrEarn
  208. Pingback: FiverrEarn
  209. Pingback: Generator Sales Leeds
  210. Pingback: cheap sex cams
  211. Pingback: fullersears.com
  212. Pingback: fullersears.com
  213. Pingback: rare breed-trigger
  214. Pingback: Litigio fiscal
  215. Pingback: abogado fiscal
  216. Pingback: 늑대닷컴
  217. Pingback: Taruhan online
  218. Pingback: One Peace AMV
  219. Pingback: nang delivery
  220. Pingback: superslot
  221. Pingback: allgame
  222. Pingback: 918kiss
  223. Pingback: หวย24
  224. Pingback: Best acne treatment
  225. Pingback: pg slot
  226. Pingback: leak detection london
  227. Pingback: AI Lawyer
  228. Pingback: carte uno reverse
  229. Pingback: cybersécurité
  230. Pingback: hotel in lake placid
  231. Pingback: megagame
  232. Pingback: electronic visa
  233. Pingback: 7mm-08 ammo
  234. Pingback: itsMasum.Com
  235. Pingback: itsMasum.Com
  236. Pingback: itsMasum.Com
  237. Pingback: itsMasum.Com
  238. Pingback: quick nangs delivery
  239. Pingback: Nangs delivery
  240. Pingback: itsmasum.com
  241. Pingback: stranger talk
  242. Pingback: menchats
  243. Pingback: itsmasum.com

发表评论