基于强化学习的算法在推荐场景中的应用
文章作者:杨梦月、张露露 导读: 本文是对滴滴 AI Labs 和中科院大学联合提出的 WWW 2020 Research Track 的 Oral 长文 “Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation” 的详细解读。 在这篇文章中,滴滴 AI Labs 提出了一种基于强化学习的层次自适应的多臂老虎机的资源限制下的个性化推荐方法 ( HATCH )。该方法将资源限制下的用户推荐问题建模成一个资源限制下的上下文老……