作者介绍

@李凯东

某大厂大数据总监,管理经验丰富;

负责数据、用户、搜索、推荐、AI等;

曾有10年连续创业经历;

产研运全能,国内知名比赛获奖无数。




本文主要分四个部分进行讲解,分别是:推荐简介,推荐三要素,算法和产品,一些思考。

01 推荐简介

1.了解推荐系统发展历程

什么是推荐系统?在早期的时候,是没有推荐算法的,我们所有人看到的所有网站都是完全一样的。这个时期比较有代表性的就是我们熟知的三大门户,比如搜狐,所有人看到的所有内容都是一样的,没有任何的基于你的和你完全匹配的相关内容。


在接下来的一段时期,推荐系统的数据发生了一些变化,我们可以看到图上有了一些新的内容,如“手机关注排行榜”,这些“排行榜”就已经归属于推荐系统的范畴了。因为用户会有从众心理,热门的信息就代表大家都会看,那么热门的手机代表大家很多人都会买。热门的内容给大家看到,点击率和转化率都会高。


再比如右边的“本地行情”,这个概念是说如果内容,通过IP或者其它的一种互联网的形式获取到,那么可以根据如地理位置信息对用户进行内容推荐,这时候给用户看到的内容就更加相关。


再比如我们可以看左下角的这个截图,它是爱奇艺播放视频时的一个PC网页的截图。上面的“八角亭迷雾”,它是段奕宏主演的,很多人看了段奕宏的视频觉得非常好,那么这些用户可能还会看他演出的其它视频,这也属于推荐系统的范畴。


一直到今天,蓬勃发展的个性化推荐。我们可以看上图:左侧第一个和第二个是抖音和快手这样闻名的短视频平台;中间的新闻类的第三个是头条第四个是知乎;右边的第五个是电商类的京东。所以在生活的每一个细节,都有推荐系统在发挥它的能力,给用户带来很大的便捷。



2.什么是推荐系统

到这里,我们该如何定义推荐系统呢?维基百科的定义是:推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。


它讲的是一个比较抽象的概念,它的很重要的一个点已经说出来了:第一,推荐是和用户相关;第二,要预测用户对应匹配的物品。


我更喜欢把它叫信息,因为所有的内容都会经过信息这样一个载体展示出来,那么信息过滤系统是什么呢?它是指推荐系统是从大量的内容里面选取用户喜欢的内容展示给用户。



3.推荐系统的技术架构

接下来我们来看推荐系统的技术架构。大家如果对推荐系统有一定的了解,一定看过网上的很多文章,基本都是以技术的视角去讲推荐算法。如果是技术的视角,它就会有一个大致的数据流向的架构,如上图。


大家可以看到在左上角,有一个箭头指向的方向,这一块主要是在做描述用户,左下角的数据主要在描述信息,也就是说一个推荐系统,在做用户和信息的匹配,最终挑选出用户最喜欢的数据。


所以我们的推荐系统在最开始的时候就要去做信息的收集,包括用户的信息收集,还有信息本身的收集,而在这个过程中,它会经历一个叫召回的服务。什么是召回服务呢?就是我猜用户可能喜欢什么内容,这个就叫召回服务。


在召回之后会有一个叫排序服务,什么叫排序服务呢?排序服务用通俗的话讲就是在第一步的时候已经猜出用户可能喜欢什么,但在第二步的时候要确定用户最喜欢什么。经过排序服务靠前面的信息就一定是用户更喜欢的,至少在算法侧是这么认为的。


再下来是重排序服务。比如视频来源于同样一个分类,推荐系统排视频的时候,我们希望连续的两个视频不要出现同样的分类,于是我们就会对它进行打散,这就是重排序中要做的事情。最后我们把它在应用场景的位置进行落地,比如我们看视频那它就会有feed流、信息流的部分,也可能会有一个视频相关的底层的推荐,这些就是具体的应用场景。


4.常用算法

这里我写了三个最常用的算法。

第一个推荐算法是基于内容的推荐,如果用户浏览或购买过某种类型的内容,则给用户推荐这种类型下的其它内容。比如我们刚才看到的主演还演过什么,这种是基于内容的推荐。


第二种叫用户协同过滤,跟用户喜欢的东西类似的东西用户也可能喜欢。比如购买了该商品的用户还购买了什么商品,这就是用户协同过滤的概念。


第三种是物品协同过滤,跟用户喜好相似的人喜欢的东西,用户也很有可能喜欢。比如用户买过一个商品,可能还需要什么。


现在推荐算法在各大厂已经变成一个完全公共的封装好的服务,可以卖给大家或给大家存的服务,它最常用的算法基本也就是目前我列的这三个。因为很多服务完全是公允的,它不获取用户大量的信息,只获取用户的行为。那它基本就用这三种算法进行相应的推荐。


02 推荐三要素


第二部分讲的是非常核心的部分,也就是说作为一个推荐产品经理,应该如何去思考,去设计一个推荐系统。最重要的思考的点是什么?如何通过一个比较体系化的思考,能把我们确定场景下的推荐系统的一个需求确定出来,且知道如何评判它。


1.推荐三要素

推荐的三要素是:信息,用户,平台。我们可以看到在维基百科定义的时候,主要讲的是用户和信息的匹配,但是忽略了一点,就是推荐系统中还有一个非常重要的因素就是平台。接下来我来讲一下每个要素都有什么样的发展阶段或者特点,那么针对这个特点我们都要思考哪些东西。


2.推荐三要素-信息

首先我先讲信息的部分,我们如何思考信息这个要素对推荐系统的影响。如果网站或app的信息量非常的少,那么应该如何做推荐?比如某平台同时在线百万级以上用户,但是每天更新的信息量只有几十个,它可能是非常垂直非常专业的论坛。这个时候其实不太用推荐系统,更多使用排序就可以了。


然后内容再放大,放大到几千个,这个时候话题、热门就变得很重要。需要设计整体的对外信息展示的形式。


接下来在数据量能够支持垂直体系的时候。什么叫能够支持垂直体系呢?比如在本地生活里,发现这些内容不断堆积之后,对生活小常识这样的事情支持的非常好,其它内容相对来说价值都比较低,那么这个时候我们应该做些什么?应该做的是把这个话题和子话题都构建好,让用户最方便的成体系的去浏览最精华的内容。这才是我们应该思考的方式,同样在这个垂直的体系下,是否用一定的算法引导用户,持续观看这个话题或深入了解这个话题。


最后当信息量足够丰富的时候,能够支撑每一个用户的兴趣爱好的时候,我们应该做些什么事情。这个时候就是推荐系统最应该发挥作用的时候,我们应该引入个性化推荐。


3.推荐三要素-平台

推荐系统的第二个要素是平台,它是非常重要的一个要素,首先平台是有不同时期的。比如一个平台的发展初期,这个时候可能有非常多的限制。比如硬件资源不够,比如算法能力不足不够强大,再比如信息量也不够多。那这个时候我们应该如何设计推荐系统,也就是说选择一个最合适的、能让用户相对更个性化的看到内容的方式就足够。在这个时候其实是一个各种制约下的平衡,比如热门就是一个非常好的推荐方式,比如超话也是非常好的形式。


再比如刚才说的可以进行一定知识体系的结构的内容展示,都是发展初期非常好的方式。另外可以根据一些简单的TF-IDF这样的一些算法,用非常简单的方式对信息进行整合,推出来相关的内容。


有一句话是:在信息传递的过程中,只要用了算法,哪怕它是非常简单的,都会比人工运营的效果要更好一些。所以,在发展的初期,选择一个合适的能帮助你有一定提升的算法很重要。


到了成长期的时候,一般用户会爆发式的增长。那这个时候平台思考的应该是什么?该如何能构建出一个支撑起用户个性化体验的生态,包括是不是有大量的内容引入。如果平台内容是由UGC产生的,那是不是引入大量的用户账号,这些就是成长期平台应该思考的问题。它虽然不是推荐算法,但它却是推荐系统整个体系中非常重要的一环。


最后一个过程会进入到成熟期,平台一旦进入到成熟期,无论是资源还是开发的人力、信息的丰富度、以及商业环境都变的及其的成熟。这个时候平台在推荐的过程中要考虑的是什么?要考虑的是长远的目标,也就是说类似于像用户的留存,用户的停留时长,以及用户的转化率,就变得非常重要。


也就是说商业指标一般是在商业的成熟期之后,才是非常重要的追逐指标。在平台的发展初期以及成长期,我们更关注的是如何快速的吸引用户,且让用户喜欢上我们的平台。


4.推荐三要素-用户

我们来看推荐三要素中的第三个要素,就是用户。用户来到平台之后,会分为几个关键的步骤。第一个步骤,是最难做的用户冷启动阶段。我们都知道推荐系统是对信息的一个匹配程度,我们要让用户去匹配信息。在刚才的技术架构上我们也看到了,就是如何描述用户,但是用户总有第一次打开应用的时候。那这个时候应该如何做冷启动,如何让用户停留下来,这就是一个非常重要的思考点,而且这也是各个平台花很大力气都去关注的点。


冷启动中有几个非常重要的点。第一个是冷启动要尽量让用户看到平台最优质的内容,这件事情非常重要。


第二个是虽然是冷启动,依然可以用很多的技术手段获得用户的一些相关信息。比如用户打开一个app,那用户的手机是安卓的还是IOS的,其实都是用户画像中的一部分。比如说苹果的用户,我们就给他提供一些苹果手机使用技巧的内容。我们还可以给他看一些苹果配件的售卖,这些都是推荐系统可以做的事情,且与用户非常强的相关。


还有就是冷启动的时候我们也可以获取用户的地理信息,同时冷启动中我们还可以尽量在用户第一次打开app的时候,对他进行一系列的引导,让用户自己告诉平台他是什么样子的。比如在注册过程中让用户勾选喜欢的视频分类,当然一般来讲都允许跳过,因为是为了方便用户。


但是我们经过大量的数据来看,一般还是会有30%以上的用户由于平台的成熟度与垂直度,专业性的不同,平台保存的信息量会有一定的变化,这个是对用户画像非常好的一个补充。


在这个阶段,还有一个非常重要,我们一定要注意的,就是在用户的冷启动阶段,不要引入任何的商业体系。因为任何一个商业体系当用户新进入平台的时候,都是会产生损伤的,都会让用户产生流失的意愿。而在用户刚到一个平台的时候,平台真正希望的并不是榨干这个用户的价值,而是把这个用户培养成它的忠实用户,这才是平台的意愿。


在第二个阶段中呢,就会进入到有了一些基础的用户信息,但是它不够描述,我们要进行画像的培养阶段,画像的培养就是要对这个用户越来越了解。这个时候我们也会有几点需要注意的事项,第一点是在用户画像培养阶段,在用户画像并不稳定的时候,我们依然不要引入任何商业化的内容,比如说商业广告这种体系就不要引入。


所以在冷启动和画像培养的阶段都不需要引入商业,大家可能会觉得平台是不是会有一定的流量浪费,因为它不产生商业价值。但实际的执行结果是,当平台把一个用户当成一个忠实的粉丝去培养的时候,当他进入到平台的固定粉丝角色中的时候,平台未来的商业收益才是最大的。


如果谁愿意测试的话,可以拿一个新的手机,一个新的账号去打开抖音,然后每一个视频不播放只不停的滑动,可以用7天到半个月的时间去看看你的视频里面有没有广告。正常来讲如果你没有误播,即使经过半个月或一个月,都不会遇到任何一个商业化的广告。


当我们的算法不断的推荐相关的内容去探索用户,以热门视频、以用户画像为主去推荐视频的时候,这个阶段,平台不断的用平台一定比例的视频去探索用户的兴趣,不断的对用户进行用户画像的描绘。


那一旦进入到用户画像稳定的阶段,这个时候我们要在意的就是让用户如何感知平台更懂他,但在这个感知过程中,并不产生恐惧。也就是说不能让用户在一个信息茧房里永远出不来,信息茧房的意思是用户处于自己感兴趣的内容中,越来越只看自己喜欢的内容,推荐系统就继续推荐用户喜欢的内容,一直不断的喜欢,当用户的喜欢加深之后,我们会发现,用户再也看不到其他内容了,这就是推荐系统中一些典型的潜在问题。


那我们在画像完善的过程中,要在用户喜欢和产生重复之间有一个度,且在用户画像完善阶段,我们就要充分引入商业体系,比如广告和用户的自我分享这些相关的内容,包括用户的好友间的信息的建立,这些都是非常好能提升整个平台指标的算法使用的能力。


以上就是我要说的推荐三要素:信息,平台和用户。所以任何一个推荐产品经理,在思考场景落地算法的时候,一定要对这三个维度进行思考,才能制定出比较好的推荐策略。如果有一个事情不思考,会发现在当前或未来的一段时间内产生非常多的负向的反馈。


比如我们刚才说的平台,推荐算法非常关注目标,比如我们强调用户点击率。如果我们不断的强调用户点击率,就会出现一个问题,就是用户不断的看自己喜欢的东西,或者是那些猎奇的内容更会被用户看到。那整个平台的价值,平台的定性,以及未来平台可发展的空间,就都会被压缩掉,那说明我们就没有考虑平台的价值。


我们要对平台的不同阶段、用户的不同阶段、以及信息量的充裕程度进行综合考虑。我们要思考在当前阶段,对这种类型的用户以什么样的信息表达方式推荐给他,这是推荐产品经理一个思考的基础框架。

未完待续……


想了解更多数据知识也欢迎看,7 位大厂产品联合写的《大数据实践之路:数据中台+数据分析+产品应用》这本书。



点赞(204) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部