首先我们从上帝的角度来谈谈信息检索(Information Retireval)。 信息检索是上网的基本要求,大到整个互联网的信息,小到应用程序中某个功能页面的信息,都属于信息检索的范围。 用户总是希望更有效地找到他们需要的信息。 帮助用户快速找到所需的信息通常是制作好产品的第一步。 首先我们来说说普通在线用户如何找到自己需要的信息?
1.什么是推荐系统?
1.1 用户如何发现信息
大约有七种方法可以在互联网上发现信息。 我将用户发现内容的主动性和内容的受欢迎程度划分为两个坐标轴,如下图所示。 圆圈的大小代表当前的受欢迎程度:
从用户发现信息的方式我们可以发现,在不同的场景下,用户使用不同的方式来更高效地发现自己想要的信息。 在用户没有明确目标的场景下,“个性化推荐”是业界验证的最高效的形式。 我们通常所说的推荐系统就是上面提到的“个性化推荐”。
1.2 什么是推荐系统?
现在我来说一下维基百科对推荐系统的定义
推荐系统是通过估计用户对项目(信息)的偏好来向用户推荐适当信息的技术。
推荐系统或推荐系统(有时用平台或引擎等同义词替换“系统”)是信息过滤系统的子类,旨在预测用户对某个项目的“评级”或“偏好” 。
从定义本身出发,我们可以看到推荐系统涉及的三个主要要素:用户、(合适的)场景和信息。 不同的用户、不同的场景,构成了无数信息推荐的组合。 这就是我们常听到的“千人千面”。 了解了推荐系统之后,我们想知道为什么需要推荐系统。 它能为推荐系统的用户和提供者带来什么?
2. 为什么需要推荐系统?
随着移动互联网越来越多地占据用户的碎片时间,人们被动接收信息的场景也越来越普遍。 与此同时,互联网上的信息量也呈现爆炸式增长。 太多的选择也很烦人,用户很容易迷失在无穷无尽的信息中。 对于海量内容的内容型产品,推荐系统能为用户和平台带来什么?
2.1 用户视角
从用户的角度来看,推荐系统帮助用户在没有明确信息消费目标的场景下更方便、更快捷地获取感兴趣的信息。 与其他类型的信息发现形式相比,推荐系统更好地满足了用户的信息消费需求,因此用户更愿意使用基于推荐系统的产品。
2.2 平台角度
提高用户粘性:在推荐系统的指导下,用户使用得越多,推荐的内容就越符合他们的兴趣。 因此,用户变得越来越懒,逐渐放弃思考,只是等待推荐系统来喂他们。 慢慢地,你吃得越多,就越胖(换句话说,用户的重置成本增加),没有它你就活不下去了。
增加用户内容消费:用户可以更容易地获得自己想要的内容,相应地他们会消费更多的内容,而更多的内容消费往往意味着更高的收入。
提高用户持续时间:同上。
2.3 从行业角度
麦肯锡数据显示,亚马逊 35% 的购买量来自推荐系统。
2016年双十一,阿里巴巴平台凭借个性化推荐实现了20%的增长。
Youtube 70%的用户时间是由推荐系统贡献的。
Netflix 75% 的播放量来自推荐系统,这帮助 Netflix 每年节省 10 亿美元。
因此,利用推荐系统在内容平台上分发内容,给用户和平台都带来了明显的好处。 我们立志要做一个推荐系统,那么推荐系统的目标是什么呢?
3.内容推荐系统的目标是什么?
我们从哪些角度来衡量推荐系统的有效性? (参考:物品数量,《推荐系统实践》,我根据自己的经验增加或减少测量维度,并将测量维度从上到下排序)
以上就是推荐系统的9个评价维度。 我们通常会用一定的数据指标来“逼近”相应的维度目标(如表中效果评价一栏所示)。 基本方法是:设定推荐目标->利用数据指标逼近目标->利用算法策略优化指标。 我们应该如何优化诉求指标来提高推荐系统的体验? 现在我们来了解一下工作原理。
4、推荐系统工作原理
推荐系统的本质是匹配“用户兴趣”和“内容特征”
也就是说,我们会整理出用户特征(肖像)和内容特征(肖像),然后通过一些关联方法将两者关联起来,这样我们就可以在特定场景下推荐用户可能感兴趣的内容(即一个在某些相关方法下表现良好的某些内容)。
4.1 用户与内容关联的方式
那么如何将用户与内容关联起来呢? 在回答这个问题之前,你可以想一下:“你为什么会看到这篇文章?” 我们通过问答的方式介绍用户和内容之间的关系。 关联方式主要有四种:
(1)基于内容
问:为什么会看到这篇文章?
答:我对文章的标题和内容感兴趣。 这篇文章中的信息对我很有用(我以前看过类似的文章,或者同一作者的文章)。
基于内容的推荐是最直观、最简单的。 用户喜欢什么类型的内容,我就推荐他们喜欢什么类型的内容。 这类连接算法的基础是我们了解内容本身,并且能够识别每条内容的具体属性。 例如,如果我想向用户推荐体育内容,但我不知道哪些内容是关于体育的,那就是徒劳。
基于主题/频道:向用户推荐感兴趣主题的优质内容;
基于标签/关键词:推荐用户感兴趣的关键词下的优质内容;
作者/内容来源:向用户推荐用户感兴趣的作者的优质内容;
基于其他深度的隐含语义:机器可以通过聚类等手段计算出一些人们无法直观描述的有意义的类别,然后向用户推荐这些隐含类别下的优质内容。
(2)以协作为基础
问:为什么会看到这篇文章?
答:与我有相同兴趣的用户也阅读了这篇文章(基于类似用户的行为)。
协同过滤只是利用具有相似兴趣和共享经历的群体的偏好来推荐用户感兴趣的内容。
基于物品的协作:亚马逊著名的“Customer Who Bought This Item Also Bought”——“Customer Who Bought This Item Also Bought”就是通过基于物品的协作完成的。
基于用户的协作:基于用户的协作本质上是根据用户的行为找到相似的用户,然后根据其他用户的偏好进行推荐。
基于向量:将用户和项目映射到空间向量,然后计算相似度。
(3)基于网络结构
问:为什么会看到这篇文章?
答:我朋友又看了一遍,对我影响很大。
基于网络结构,内容关联性以及用户和内容的操作记录构成网络拓扑结果。
基于社交网络:微信的看看是基于社交网络的单线推荐,专注于好友推荐的内容;
基于结构的网络:读过相似文章的用户是相关的,相似的用户越多,他们之间的联系就越大。 基于此设计,构建网络,然后针对相似用户进行内容推荐。
(4) 基于场景
问:为什么会看到这篇文章?
答:这篇文章在此时此地比其他文章都好。
场景推荐是根据用户当时的使用场景进行推荐。
基于时间:推荐当前时刻的优质内容;
基于位置:推荐适合您当前位置的优质内容;
基于流行度:推荐在当前平台表现良好的内容。
总而言之,为了更大程度地提升推荐效果,需要更深入、更广泛地挖掘用户与内容之间的联系,从而全面提升推荐效果。
5.打开黑匣子,推荐请求会发生什么?
接下来我们打开黑匣子,深入看看用户打开推荐流程后会发生什么?
(1)推荐请求信息——携带用户信息请求推荐服务
请求携带用户设备请求信息:用户ID、地理位置、IP、注册时间、设备信息、版本信息等;
获取用户画像:性别、年龄、喜欢的内容类别、喜欢的关键词、喜欢的作者、用户手机上安装的IT应用等信息。
暂无评论内容