快捷搜索:  汽车  科技

knn算法核心思想:懂了它就懂了系统平台的文章推荐机制

knn算法核心思想:懂了它就懂了系统平台的文章推荐机制与推荐用户最密切关系的人然后,找到与张三兴趣爱好最接近的3位朋友,也就是K=3(这个K是系统开发者设定的,但不是随意的啊),我们判定李四、王五、赵六,与张三在短视频上有共同的爱好。假设你是一个短视频经营平台A,你要向你的用户张三推荐他喜欢的短视频内容。我们设计的思路是这样的,首先我们计算找到与张三兴趣爱好最相近的K个朋友,然后认定张三也喜欢他的K个朋友喜欢的内容,将他朋友喜欢的内容推荐给张三。我们首先将所有的用户放入坐标之中。所有的用户放入坐标之中

“人家写的文章,发布的视频,为什么动辄有数十万的访问量啊,我写的文章为什么阅读量总是寥寥无几?”小李是公司的电子商务运营人员,这几天小李一直在为找不到方向闷闷不乐。小李的情况代表大多数的电子商务运营者,由于不了解系统是如何选择取舍用户内容的,所以他们感到十分苦闷。

对算法熟悉的程序员知道,现在无论是头条体系,还是阿里巴巴体系,或者是腾讯体系,在内容地分发上,统一采用推荐算法,也就是机器采用推荐算法完成的。电子商务运营人员只有明白了推荐的原理,才能很好完成电子商务运营。那么机器是如何完成推荐的呢,KNN算法是其中的灵魂。

啥是KNN算法

KNN的全称是K Nearest(最近的) Neighbors(邻居),意思是K 个最近的邻居,K代表不确定的数量。也就是根据K个最近邻居特征,向用户推荐内容。

这听起来有些抽象,我们举个具体的例子,详细解释一下到底什么是KNN算法。

假设你是一个短视频经营平台A,你要向你的用户张三推荐他喜欢的短视频内容。我们设计的思路是这样的,首先我们计算找到与张三兴趣爱好最相近的K个朋友,然后认定张三也喜欢他的K个朋友喜欢的内容,将他朋友喜欢的内容推荐给张三。

我们首先将所有的用户放入坐标之中。

knn算法核心思想:懂了它就懂了系统平台的文章推荐机制(1)

所有的用户放入坐标之中

然后,找到与张三兴趣爱好最接近的3位朋友,也就是K=3(这个K是系统开发者设定的,但不是随意的啊),我们判定李四、王五、赵六,与张三在短视频上有共同的爱好。

knn算法核心思想:懂了它就懂了系统平台的文章推荐机制(2)

与推荐用户最密切关系的人

有了这样的图表以后,创建推荐系统就变得十分简单。只要是李四、王五、赵六喜欢的短视频,就将其推荐给张三。

knn算法核心思想:懂了它就懂了系统平台的文章推荐机制(3)

将张三朋友李四喜欢的视频推荐给张三

这就是KNN算法的简单逻辑,但是还有两个问题,需要解释一下,就是K值选取多少为好呢,相似性是怎么计算出来的呢等。

K值是如何计算得来的

K值的选取非常重要,不能太大也不能太小。还拿短视频推荐的例子来讲,我们打算为张三选取在短视频方面有共同爱好的人,如果只是选取一个人作为共同爱好者时,一旦张三行为发生变化,那么就会出现偏差,无法为张三推荐短视频。

如果选取K的值过大,也就是关联的朋友过多,也会出现情况,因为朋友过多,差异较大,张三上网选取短视频时候,也会出现无短视频可推送的情况。

学术上称这两种情况过拟合(over-fitting )和欠拟合(under-fitting)。

K的取值尽量要取奇数,常用的方法是从k=1开始,每次K增值1,以找到最佳的目标。

怎么计算两人之间的共同爱好啊

我们还以A短视频平台向张三推荐短视频为例,假设A平台要向张三推荐短视频,平台就需要将张三等短视频用户放到图表中,并转化为一组坐标,确定了他们的坐标,就可以计算他们之间的距离了。

knn算法核心思想:懂了它就懂了系统平台的文章推荐机制(4)

张三的坐标

下图是将用户转化为一组数字的方式。用户注册时,要求他们指出他们喜欢的短视频类型,并指出对各种短视频的喜欢程度。

knn算法核心思想:懂了它就懂了系统平台的文章推荐机制(5)

张三、李四、王五对不同类型短视频的喜欢程度打分

这样,对于每位用户,都将获得一组数字。那么我们计算张三和李四之间的距离的公式为:

knn算法核心思想:懂了它就懂了系统平台的文章推荐机制(6)

距离计算公式

他们之间的数值越小,距离越近。

由于各种复杂的原因,他们之间的计算公式不都是这样的计算,还有余弦距离、Tanimoto 系数等方法。

回到上面的短视频推荐中,经过计算,我们知道了和张三之间距离最近的人,他们喜欢的短视频可能就是张三喜欢的短视频,这样我们就可以给张三推荐短视频了。

实际的推荐系统远比这个复杂

上面我们看到,我们向张三推荐的短视频系统是通过张三的好朋友实现的。实际上在真实的短视频、新闻内容推荐系统中,远比这个复杂。

除了上面的这种推荐方法之外,还可以基于内容本身的特征向用户推荐内容,系统基于用户的喜好评价对象的特征,然后计算用户和内容的匹配程度,并向用户推荐内容。实际应用中还常常用到基于关联规则、基于效用、基于知识等推荐方法。

我们知道头条在推荐内容时候是首先基于内容向用户推荐一轮,如果评论、转发、收藏比较多,他们他们还会基于协同,也就是基于好朋友再向相关的用户推荐一轮。这就综合运用了各种推荐方法。淘宝的推荐方法也是综合运用各种要素进行推荐的,其中商家的权重就是基于效用推荐的。

解释:无论采用何种推荐方法,其核心的算法还是KNN算法,其具有简单易用、模型训练时间快、预测效果好、对异常值不敏感等优点,缺点是对内存要求高、如果预测可能比较慢、对数据规模比较敏感。

knn算法核心思想:懂了它就懂了系统平台的文章推荐机制(7)

推荐系统机制

在了解了系统推荐机制之后,我们需要梳理一下自己的思路。目标用户关心的是我们电子商务运营的方向;同时,我们也要明白推荐的机制,我们的电子商务运营目标要与系统推荐平台的目标达成一致。

猜您喜欢: