信息流产品和内容推荐算法

article/2025/9/18 12:46:49

(一)什么是信息流产品

当下,信息流(资讯)和短视频是唯一两个在用户领域保持好的增长事态的细分行业。像其他比较成熟的互联网细分行业,比如说移动社交,电商,OTO这个细分行业,用户已经饱和了,用户增长比较缓慢,而短视频以及信息流是一个很迅猛的用户增长的势头。

信息流产品是一个非常好的用作商业变现的产品形态。

1. 信息流产品的特点

  • 信息流产品

    • 在合适的场景下,为用户提供合适的内容
    • 适合手机屏幕,手指上下滑动,如水流般源源不断
    • 数据量足够大,能够不断刷出新内容

2. 对用户价值

从用户层面讲,信息流产品对于用户价值,主要体现在下面四个方面

  • 便捷阅读

    • 相对于传统的书籍,杂志,信息流产品会是一个便捷的阅读方式
  • 海量信息

  • 新鲜及时

  • 个人兴趣

3. 商业上的价值

商业上的价值就是信息流广告
信息流广告是一种很高效的变现模式

  • 就像曾经的搜索广告,信息流广告已经成为用户接受的、高效变现模式

今日头条 DAU(日活)超过1.2 亿,人均时长70分钟+,年均广告营收150亿+;
网易DAU超过2千万,人均时长40分钟+,年均广告营收50亿+;

(二)如何推荐内容

信息流产品的本质是推荐内容,那怎么样推荐内容呢?

1. 推荐内容的两种方法

一种是人工运营的方法,人工去筛选一套人工的经验去对新闻价值做出判断;另外一种就是依靠机器,依靠算法去做推荐,这两种推荐内容的方法各有优劣。

2.为什么要用算法

大数据时代,每天更新的内容是海量的。而人工运营,往往局限于热点内容,就像是冰山一角。冰山之下,是大量的长尾、冷门的内容,必须依赖机器算法做个性化推荐。

3. 推荐系统框架

  • 理论上的简化框架
    在这里插入图片描述
  • 推荐系统实操
    在这里插入图片描述
    我们会有合作伙伴(Partner),也会有爬虫(Crawler),我们通过爬虫或者是合作伙伴会把我们的数据抓到我们的库里,大概库里每天文章的更新会在 20 万左右,文章入库之后,我们通过 Content Parser(分词提取器)会对文章做一些语义分析、文本分析去生成一些文章相关的标签或者类型等一些特征,通过过滤之后,我们会把这些数据放在 Feeder 的数据库。Feeder 一方面与这个Feature Server 相交互,会把数据传递到 index(用户兴趣索引)。用户会根据会话的行为,会做一些记录和上报,同时会把这些数据(Session Server)同步更新到用户索引上。Index 之后的召回(Recall),对于一个用户来讲,我们第一次召回,会召回 2000 篇文章左右。这 2000 篇文章的来源一个是CF(协同过滤) ,CF又来源于 ItemCF 就是基于内容的相似度(我之前看过一篇文章,我会推一个跟之前文章相似的文章,就是基于文章相似度做一个推荐),UserCF就是基于用户相似度的协同过滤,就是通过计算,找出用户跟另外一个人类似,然后就会把另一个人看过的文章和感兴趣的内容也推给这个用户。另外还有一种召回内容的方式叫 CB 就是基于内容本身,比如说这篇文章是体育,那这篇文章就会推送给有体育标签的用户。比如说一篇文章有关键字,有科比,那就会推荐给带有科比标签的用户。NH 就是在当前系统里比较热门的文章,那我们怎么判断那些是热门的文章呢,首先是依据 action 就是行为,因为每篇文章可以会被用户阅读,被用户点赞,被用户评论,被用户分享,我们还会制定一些权重,那我们对这些行为做一个分析,我们可以判断这个文章是一个热门文章。那我们这些热门文章在召回的时候,也会基于 User Profile(用户属性)比如说性别属性、地区属性等,我们也不会乱推,尽管它是热门文章,我们也要考虑人群的定向化;Time 就是任何热门的东西,都有时间衰减性。
    下面说 Rank 这个模块,就是排序的模块。这个模块我们会说从刚刚 2000 篇的文章里筛选出 200 篇文章,并且对这 200 篇文章进行排序。那我们这 200 篇文章是怎么排序的呢?我们会对这 200 篇文章进行 CTR 的预估,以及阅读时长的预估。为什么不只做 CTR 的预估,就是系统要避免“标题档”的存在。从这200篇文章里,最后到 Rerank 的模块,就是从 200 篇文章里审出 15 篇文章。我们用贝叶斯的方法对这个15篇,主要要增加文章的多样性,我们要把同类推荐的文章打散;Fix 就是在这15 篇文章里增加探索性的内容,我们不希望让用户的标签固化,就是一个用户打上了体育标签,我们不希望这个用户永远会是这个标签,我们偶尔也会加 5%-10% 左右的探索性的内容。

(三)推荐质量的评估

1. 流量该如何分配

  • 70% 的流量分配给稳定模型

  • 30% 的流量分配给实验模型

    • 10% 实验模型A
    • 10% 实验模型B
    • 10% 实验模型C

2. 实验模型的评测指标

  • 准确率

    • 推荐列表里,多少比例的文章,是用户读过的;
  • 召回率

    • 推荐列表中,用户度过的文章,占用户阅读记录的比例
  • 覆盖率

    • 推荐列表的文章里,占文章总数的比例

举例:文章总量为100,用户实际看了10篇文章,最终实验模型推荐了20篇文章,用户看过的有8篇,准确率为40%,召回率为80%,覆盖率为20%;

3. 实际业务中关注的算法效果

  • UV 转化率

    • 阅读UV/曝光UV,反映多少比例的曝光用户转化为阅读用户
  • PV 转化率

    • 阅读PV/曝光PV,反映文章的平均转化情况
  • 人均篇数

    • 阅读PV/阅读UV,反映内容消费深度
  • 人均阅读时长

    • 阅读总时长/阅读UV,反映内容消费深度

http://chatgpt.dhexx.cn/article/ii5s0ZKB.shtml

相关文章

O2O商城系统,适合本地电商发展的商城系统!

说起商城系统,最适合本地电商发展的要数O2O商城系统了,O2O商城系统有什么优势? 一、本地O2O商城系统对商家的好处 1、本地O2O商城系统对消费人群定位比较明确,针对性强,而且本地的人消费习惯都比较了解。这样也容易形成固定的…

[转]从本地电子商务中走出来,6个很好的O2O模式解析

谓O2O就是线上到线下(Online to Offline) 请看以下几个非常好的O2O模式: Uber Uber是一个允许你通过手机购买一个私家车搭乘服务的应用。其运作方式如下:下载Uber应用,发出打车请求;几分钟内一辆私家车来到…

Oauth2协议

Oauth2协议 Oauth2简介角色常用术语令牌类型特点 授权模式授权码模式(Authorization Code)简化授权模式(Implicit)密码模式(Resource Owner PasswordCredentials)客户端模式(Client Credentials…

2021年中国医药O2O行业发展现状、发展问题及发展建议分析[图]

医药O2O模式指的是基于线下药店,利用现存资源,将门店的功能从售药转变为体验、提货和配送,贴合当地需求,完成和用户的最终接轨。 随着疫情防控成为常态化,医药电商与数字医疗也迎来了新的发展。医药的网上销售呈现出逐…

中国IT运维O2O市场发展研究及十四五前景规划分析报告2022-2027年

中国IT运维O2O市场发展研究及十四五前景规划分析报告2022-2027年 第1章:IT运维O2O的概念界定与内涵1.1 IT运维的概念界定与内涵 1.1.1 IT运维的概念 1.1.2 IT运维的演化历程 1.1.3 IT运维的内容 1.1.4 IT运维的流程 1.1.5 IT运维的价值 1.2 IT运维O2O的概念界定与内涵…

案例直播 | Pulsar Summit Asia 2022:Day 1 - 分论坛 1:腾讯、华为、有道、vivo、科大讯飞...

关于 Pulsar Summit Pulsar Summit 是 Apache Pulsar 社区年度盛会,它将分布在世界各地的 Apache Pulsar 项目 Contributor、Committer 和各企业 CTO/CIO、开发者、架构师、数据科学家,以及消息和流计算社区的精英召集在一起。于此盛会,大家分…

高德导航免费,那他靠什么收入?

来源 |一口Linux 一位工作了12年的软件工程师说:当你打开导航时,不需要任何费用,还会给高德公司带来丰厚的收入。当时我不信,去查了相关资料后,才知道这个行业不简单。 出门外出,对路线不熟时&a…

全球及中国前置汽车中冷器行业需求趋势分析及发展规划研究报告2021-2027年版

全球及中国前置汽车中冷器行业需求趋势分析及发展规划研究报告2021-2027年版 2020年,全球前置汽车中冷器市场规模达到了XX百万美元,预计2027年可以达到XX百万美元,年复合增长率(CAGR)为XX% (2021-2027)。中国市场规模增长快速,预计将由2020年的XX百万美元增长到2027年的X…

智能家居市场应采用精准营销策划模式

智能家居在全世界的发展都属于新鲜事物,在中国市场,智能家居行业参与进来的企业众多,包括跨国企业也包括本土的强势品牌都参与其中,唐太子、霍尼韦尔、莫顿、新加坡NICO、上海索博、广东安居宝、波创科技、海尔集团、天津瑞朗、联…

O2O营销结构思维导图模板分享

O2O营销是线上线下营销,随这互联网科技的发展,很多公司的业务从线下扩展到线上。但是在如此多行业的竞争下,怎样做好线上业务就成为最大的麻烦,下面是分享的O2O营销结构思维导图模板以及利用在线工具编辑思维导图的操作方法&#…

新项目从零到一DDD实战思考与总结

抱歉了,前面几篇DDD的文章我删除了,本篇是前面发表的几篇DDD的汇总,内容有修改。 领域驱动设计(DDD)是一种业务领域建模方法论、业务架构设计方法论,战略设计阶段从业务领域视角划分领域边界,抽…

设计模式 | 四、代理模式(静态代理、JDK动态代理、Cglib动态代理、手写动态代理核心部分)[ProxyPattern]

代理模式 源码:https://github.com/GiraffePeng/design-patterns 1、应用场景 在生活中,我们经常见到这样的场景,如:租房中介、售票黄牛、婚介、经纪人、快递、事务代理、非侵入式日志监听等,这些都是代理模式的实际…

23种设计模式 原型设计模式

原型模式的定义: 原型模式:使用原型实例指定待创建对象的类型,并且通过复制这个原型来创建新的对象。 原型模式的结构: 原型模式主要包含3个角色: (1)Prototype(抽象原型类):声明克…

OTO模式 传统产业掘金互联网时代的利器

OTO模式 传统产业掘金互联网时代的利器 2013年10月16日 07:11 来源:中国经济网—《证券日报》 编者按:今年以来,一种新型的商业模式OTO模式迅速被国内众多传统企业所熟悉,很多传统企业借助OTO模式实现了从传统产业向互联网时…

OTO电子商务商业模式探析

一、前言 OTO(O2O),即Online to Offline,是将线下商务机会与线上互联网结合在一起,让互联网成为线下交易前台的一种电子商务商业模式,简单来说就是“线上拉客,线下消费”。其核心理念是通过电子…

2020-1024

2020 - 1024 996

1024程序员节

1024是一种逐渐流行的回帖方式,常见于BBS、网络社区和论坛的网友交流中。其常见形式为"1024"、"1024顶"两种形式。 1024所表达的含义,类似于"顶"、"非常棒,一级棒" ,还有表达回帖者的身…

1024,干程序才懂得节日!

1024程序员节 1024程序员节是广大程序员的共同节日。1024是2的十次方,二进制计数的基本计量单位之一。针对程序员经常周末加班与工作日熬夜的情况,部分互联网机构倡议每年的10月24日为1024程序员节,在这一天建议程序员拒绝加班。 程序员就像是…

2022年的1024

一年一度的1024来啦! 今年是我的第6个1024. 在这个专属节日里,我想随性记录一下当下的心境吧: 从2016年接触编程以来,自己各方面都有成长,可是不变的是从最初知道自己是小白到现在知道自己还是小白,笑死…