今日头条推荐,今日头条推荐的三个要素

动态 未结 置顶 精帖
用户
悬赏:60飞吻

大家好,我是项亮。非常感谢大家参加下午的活动。今天,我要给大家聊一聊今日头条推荐系统。

推荐系统的本质:从巨大的内容池中为用户匹配出感兴趣的内容

首先要和大家介绍的是推荐系统的工作原理。

推荐系统的本质,就是从一个巨大的内容池里,给当前用户匹配出几篇感兴趣的文章。这个内容池有几十万、上百万的内容,涵盖文章、图片、小视频、问答等各种各样的体裁。信息的匹配主要依据三个要素:用户、内容、感兴趣

下面我会把这 3 个要素详细地介绍一下。

首先,用户刻画。

我们怎么给用户提供他们喜欢的内容,或者说怎样更好地去理解一个用户的需求?其实,平台有很多角度可以去刻画一个用户的画像:年龄、性别、历史浏览的文章、环境特征等等。以环境特征为例,用户浏览某个信息的时间是在平时还是在周末;地点是在外出时,还是在常住的地方。这些都是刻画用户的重要因素。

其次,内容刻画

头条的内容体裁非常丰富,有图文、小视频、视频、问答等各种各样的体裁。这些内容有娱乐、体育、健康等多种分类。平台可以提取文章中的关键词,或者利用AI技术识别音频与视频的具体内容,从而将内容快速分类。

最后,最重要的一点,感兴趣

我们不可能直接问用户:你对这个内容感兴趣吗?是否感兴趣,我们只能从用户的“动作”中捕获出来。当用户刷新出十几篇文章的时候,如果用户对某篇文章感兴趣,他首先会点击阅读。点击之后,如果确实觉得这一篇文章确实写得很好,他可能会跟身边人分享,还会点赞、评论。假如这篇文章让他对作者产生了兴趣,还会让他有下一步的动作——关注作者。有的人看完这一篇文章,觉得这个文章内容质量太差,就会给这篇文章不喜欢。

以上种种,都是我们用来刻画这个用户是不是喜欢这篇文章的“动作”。这些“动作”在我们的推荐系统里,都会作为一个因素被纳入最终的考虑之中。假如你的文章得到很多人的点击,但点击进去,用户看了两眼就走了,不点赞,也不评论,推荐系统就会判定你的文章没那么吸引人。

推荐算法的实质:拟合一个用户对内容满意度的函数

前面简单介绍了推荐算法的 3 个要素,那么推荐算法本身是什么呢?它实际上是一个拟合你对内容满意度的函数。它会估算你进入一篇文章后的点击概率,看完后的点赞、评论概率;在此基础上,它还会给出你对这篇内容的正面评论、负面评论与中性评论的概率。

推荐系统会把这些概率通过融合的方式集成在一起,最后算出用户对这篇文章的兴趣分。当一个用户来到今日头条,推荐系统会从我们几十万、上百万的内容池里面,将所有文章按照兴趣分由高到低排序,前十名的文章会在此时脱颖而出,被推荐到用户的手机上展现。

一篇文章在推荐系统中的生命周期:初审 – 冷启动 – 正常推荐 – 复审

前面,我从推荐系统的 3 个要素介绍了推荐系统的本质。下面,我会从创作者比较关心的角度,也就是从一个文章在推荐系统里面的生命周期去介绍一下推荐系统。

当大家发表完一篇文章,拍完一个视频后,就会生成一个内容。这个内容在整个系统里面经过如下一些步骤。

初审结束后我们会做一些加权推荐,我们称之为“冷启动”,“冷启动”完成之后,我们会对文章做正常推荐。在这一过程中,我们会不断搜集到用户的反馈。一旦文章被展示出来,就会有用户点击它,评论它,甚至举报它。系统就会收集各种各样的用户行为。基于这种行为,进而触发我们复审流程。复审会直接影响到文章的后续推荐。

  • 内容初审

首先就是要对这个内容进行审核,也叫初审。

初审的目的在于判断这篇文章有没有违反国家有关法律的风险。在这一过程中,机器会判断优先级,将内容交给不同的人审核。在机器和人工的共同配合下,内容会以较快的速度通过初审,从而立即展现在读者面前。

  • 冷启动

在内容审核之后就是“冷启动”的过程。“冷启动”,是一个推荐上的概念。新的文章发表之后,和之前那些已经在平台上火起来的文章相比,具备一定的劣势。这些现在还是“冷”的文章中的大部分可能是火不起来。这里就存在一个矛盾:如果不把这篇文章展现给用户,就不知道将来会不会火起来。

因此,对于所有的新信息,我们会做一个加权推荐。让所有的用户有一定的概率能够看到新的文章。在加权之后,文章大概会展现几千次。基于这几千次用户的点击、分享、点赞,我们可以判断哪些

回帖
  • 消灭零回复
[打开调试信息]