知乎推荐页Ranking经验分享（知乎推荐页Ranking经验分享）

小君 2023-08-18 01:06:17 543

知乎推荐页Ranking经验分享（知乎推荐页Ranking经验分享）推荐页请求流程01导读：本次分享主题主要从以下是三个方面展开：首先大家看一下知乎APP的推荐页的推荐结果，由于单厚智老师对机器学习比较感兴趣，所以推荐内容大部分和机器学习相关。--

分享嘉宾：单厚智知乎排序算法负责人

编辑整理：李岩哲

内容来源：DataFun AI Talk《知乎推荐页Ranking经验分享》

出品社区：DataFun

导读：本次分享主题主要从以下是三个方面展开：

知乎推荐页场景和Ranking历程介绍；
深度学习在Ranking中的尝试和应用现状；
Ranking面临的问题和未来研究方向。

首先大家看一下知乎APP的推荐页的推荐结果，由于单厚智老师对机器学习比较感兴趣，所以推荐内容大部分和机器学习相关。

知乎推荐页Ranking经验分享（知乎推荐页Ranking经验分享）(1)

推荐页请求流程

知乎推荐页Ranking经验分享（知乎推荐页Ranking经验分享）(2)

1. 召回：负责将用户可能感兴趣的内容提取出来，重点是全

基于话题：获取用户的关注数据，用户行为挖掘；
基于内容：协同过滤的方式。

2.排序：负责对召回的内容进行打分，可以理解为感兴趣程度，重点是准

基于规则：时间顺序，线性加权；
基于模型：GDBT，DNN。

3.重排序：出于产品或业务的考虑，对排序的内容进行重排，最终展示给用户

提权：比如给视频进行一定的提权；
隔离：相似内容隔开；
强插：高质量的新内容流通。

以上就是知乎推荐页的整体架构流程，下面针对Ranking模块做详细讲解。

首先介绍一下推荐页Ranking的演进历程如下图所示，Ranking的演进主要经历了四个阶段。

知乎推荐页Ranking经验分享（知乎推荐页Ranking经验分享）(3)

按照时间排序

按照用户的行为，比如关注，动态等，并根据时间进行排序；

它的问题是没有考虑到亲密度或者感兴趣的程度。

EdgeRank算法

该算法借鉴Facebook的EdgeRank算法，根据用户亲密度进行排序。

Feed Ranking

采用GDBT模型。

Global Ranking

深度学习模型，DNN等。

模型的选择主要有以下方面的考量：

深度学习大趋势；

能处理更高维度特征，如几十万话题量级，GBDT 无法完成训练；

非线性模型，不必做大量的特征组合；

使用GPU HDFS结构，可以训练更多的样本。

特征介绍

我们的特征按照内容进行划，可分为如下分三类：

1.用户画像特征

用户属性特：性别等；
统计特征：用户点赞数等。

2. 内容画像

固有特征：文章长度，关键词等；
统计特征：历史点赞数等。

3.交叉特征

用户与内容的交叉特征：比如用用户感兴趣的话题和当前待推荐内容的话题交叉。

特征的形式主要有以下几个方面：

数值特征：文章长度，点赞数；
Onehot：比如，内容类型；
Multihot：内容多个话题 id；
Onehot with value：用户对单类型内容的感兴趣程度；
Multihot with value ：用户对各话题的感兴趣程度。

特征设计

设计原则：

特征尽量全：从现有的数据中提取尽可能多的特征；
特征原始值全：比如加历史CTR 特征的时候，可以把 pv 和 click 都带上；
覆盖率大：去掉一些覆盖率很低的特征，这些特征影响影响范围小，大部分是缺失值；
线上线下一致：覆盖率和取值分布尽可能接近。

新特征方向：

显式交叉特征：DNN 能学习特征的非线性能力，增加交叉特征可以降低模型搜索的空间，在训练数据一定的情况下可以提升效果，如用户的话题兴趣和当前话题的均值和最大值，效果提升明显；
出于业务考虑：需要对业务有一定的理解，把自己当做用户，考虑什么情况下点击率会大，什么样的内容更容易被用户点，比如视频在 wifi 下更容易被点，视频点击率高的人更喜欢视频；
数据挖掘特征：如内容 Embedding 特征。

1. 内容Embedding