日均亿次广告投放的FreeWheel如何实践机器学习?

article/2025/9/27 7:43:09

FreeWheel 创建于 2007 年,总部位于美国硅谷,作为一家提供互联网视频广告投放、监测、预测、增值等解决方案的 IT 公司,其已为 CBS、Warner Brothers、Turner、Discovery 等公司提供服务,日均广告投放已超过上亿次,并且这个数字仍在快速增长。

随着业务的迅猛扩增,机器学习技术也成了 FreeWheel 技术团队的选择。尤其在预测网站视频的流量上,机器学习可以大幅提升预测的精准度。对于视频网站来说,更加精准的视频流量预测可以更好地帮助客户进行库存计划、广告售卖、风险控制等,从而增加收益,达到双赢。

为了揭开与这项技术相关的探索和实践,InfoQ 采访到了 FreeWheel 北京研发中心的一支技术团队,从而为更多读者讲述利用机器学习预测视频网站流量背后的故事。下面为系统示意图。
在这里插入图片描述
1.项目背景

机器学习现在已经在广告行业有了十分广泛的应用,特别是被用在预测视频网站流量上。在采访的开始,FreeWheel 的研发人员叶博睿为我们简单阐述了这一技术解决方案的痛点。

FreeWheel 的客户大多拥有大量高品质的内容,诸如:直播体育赛事、美剧、电影等。由于这些内容大多是在固定时段播出,其流量会呈现出一定的周期性,但多方面因素的存在导致这种周期性并非严格。

比如,美剧《摩登家庭》在每年的九月底更新一季,那么在这个时期的视频流量就会上涨,不过并非每年九月份的观看量都一模一样。通常,非机器学习的传统流量预测方法会有以下三个痛点:

(1)基于采样的预测方法难以捕捉周期性信息,从而预测精度会低;
(2)不同的客户拥有很多不同的视频,这个量级多达百万,而每个视频的周期却不尽相同,如果对每个不同的视频人工处理无疑是非常困难的;
(3)数据不具有严格的周期性,使得传统统计模型 ARMA、ARIMA 难以得到满意的结果。

此外,研发人员表示,对于很多客户来说,他们的季节性赛事流量难以用算法预测,只能自己手工调整,这给运营带来了很多压力。如果手工预测的结果不好,还会影响广告的售卖等。

为了解决以上问题,FreeWheel 采用了机器学习的方法去自动判别一个视频的流量是否有周期性,并且从历史数据中提取周期特征进行流量预测。

团队是从 2017 年开始这一项目的。在此之前,团队进行过很多其他非机器学习的尝试,比如使用采样方法来预测,效果并不理想。在深入理解和分析了客户的业务场景和数据特点后,团队提出了用机器学习来解决的想法。

2017 年上半年,团队经过反复实验,确定了视频流量季节性判定算法和流量预测算法。在上线之后改进了算法效果评估准则、新增视频分类算法;下半年,团队优化了预测逻辑,客户也从最初的 2 个增长到 11 个。

2018 年,团队开始尝试基于深度学习的一系列方法,其中包括基于卷积神经网络(Convolutional Neural Networks)的季节性判定算法和基于循环神经网络(Recurrent Neural Networks)的序列到序列(sequence-to-sequence)模型的流量预测算法。据介绍,这些工作还在持续的进行当中。

发展至今,这一项目已取得了不错的成果。我们了解到,目前,FreeWheel 主要客户 60% 的流量预测都已迁移到了该解决方案且运行稳定,并得到了客户的积极反馈。有些客户还专门发来邮件致谢,例如 Channel 4 就曾说 : “ We can see dips in forecast results when we expect to see dips. Thank you for your hard work!”

下面展示部分线上预测结果图:
在这里插入图片描述
其中,绿色线为客户的实际流量,蓝色线为机器学习算法预测出的流量,红色线为采样预测的流量。可以看到机器学习算法的预测结果和实际流量贴合得非常好。

利用机器学习,团队已经解决了前文中提到的痛点,新的算法已经可以准确捕捉季节性信息,适配不同的客户,并且极大地降低各方面的运营成本等。

2.技术选型

在技术实现上,流量预测存在很多具体的技术难点。而机器学习可以很好地解决这些难点:

(1)判定一个序列是否存在周期性。网站视频流量的一个非常大的特点就是噪音很大且不是平稳时间序列,用传统统计的方法来抽取出周期性会非常困难。使用机器学习的方法,可以合理提取网站视频流量的特征,比较视频流量模型每年的相似程度,从而判定视频流量是否存在周期性。
(2)通过周期性特征和趋势特征合理预测流量。机器学习的方法可以通过提取上一个周期的流量和最近的流量作为特征进行训练,从而预测未来几天的流量信息。
(3)对不同的客户使用不同的模型预测流量。因为不同客户之间的流量规模和分布差距比较大,使用传统方法会非常困难。而机器学习的方法可以为每个客户分别训练一个模型,速度快且没有人工成本。
(4)建立数据长度容忍度更高的模型。对于周期性不强或者数据长度不够但仍然有趋势特征的视频流量序列,可以使用神经网络这种对周期性和数据长度没有那么敏感的模型。
(5)预测结果的可解释性。业务所用的算法,能够通过数据判断出哪些历史日期对于今天的流量预测更有意义,从而在客户对预测结果有疑问时,从算法层面给予更合理、更精准的解释。

具体的技术实现可分为这样三个阶段:

1.前期准备
首先需要了解业务逻辑和客户需求,判断是不是机器学习可解的问题。这个问题的业务特点是通过用户的历史流量去预测未来流量,这种基于数据的预测问题正是机器学习非常擅长的。

其次是了解客户的数据特点。体育赛事视频、美剧、电影的视频观看量数据每天更新,可以看作是一个基于天的时间序列预测问题。这个时间序列的特点在于:

(1)不同客户的不同视频,观看量规模不同;
(2)视频观看量时间序列呈现周期性变化,但不是严格的周期性。

此外,还需要了解用户的需求。用户的流量数据每天都会更新,研发需要每天吸收新的数据,做更准确的预测。最后,根据用户的数据特点和需求,选取合适的数据预处理方案和机器学习算法。

2.中期实现
由于客户的视频量十分巨大,一个客户可以有百万甚至千万级别的视频,因此机器学习算法训练的压力十分大。

对于线性回归来说,拟合数据往往需要数小时乃至数天的时间。如果需要每天吸收来自客户的新的数据并且及时作出更新的预测,这个开销无疑是无法接受的。于是,在预处理阶段,FreeWheel的研发团队将类似的视频的流量合在一起做训练和预测,最后通过加权的方法分配流量。

根据不同客户的特点,他们使用了很多不同的分类方法。比如将《摩登家庭》十个季度、NBA 体育赛事视频分别聚类在一起等。研发人员说,这样的做法还有一个好处:有的时候单一的视频流量并没有呈现周期性变化,但是累加在一起就有周期性变化了。比如将《摩登家庭》十个季度的观看量加在一起,就会呈现出一个十年的按一年为周期的规律性变化的时间序列,对于流量预测有很大的好处。

然而,如果基于过去几年的流量进行预测,直接将几千维的特征输入回归算法中训练,速度会非常慢,也无法达到客户的要求。并且,这几千维特征也会让机器学习算法难以找到关键性信息从而作出有效的预测。这时候就要求研发人员正确地对数据进行降维,并且保留周期性信息。

FreeWheel 的研发人员选择抽取以往每年、每月、每周在需要预测的这天的流量信息,成功将特征维度降低到一百维以下。这样就可以在保证准确度的情况下快速进行训练和分类。在线上,可以仅用一个小时左右的时间完成对一个客户所有视频数据的训练。

对于新来的没有历史流量的视频,如何预测呢?研发人员告诉我们,在预处理中,会把相似的视频分类到同一个视频组中,再分配一个默认的权值去分担在视频组中预测的流量。

另外,一些没有任何周期性特点的短视频又该如何处理?在 FreeWheel 的视频分类算法中,有一种按视频长度分类的方法。短视频虽然没有周期性特点,但是有用户喜欢看某类的短视频,如果将这些流量相加,就会呈现一定周期性了。
通过对不同视频的分类,再应用上合适的机器学习模型,对视频流量精准度的预测自然而然地有了大幅度提升,当然这还不是完整的流程。

3.后期运维及注意事项
后期运维主要在于接收新客户,对客户的数据特点进行评估看能否与预测系统适配,有些客户会对他们特别关注的视频有一些需求,算法也会相应地进行一些微调。

3.技术方案特点

据了解,国内外很多大型的视频网站都会有自己的视频流量预测解决方案,在这样的情况下,FreeWheel 的解决方案有哪些特点和优势呢?

研发人员表示,通常的做法主要分两种:

第一种是自己实现算法在自己的视频流量上做预测。这么做的公司对自己的业务非常了解,会对于自己的情况做很多特殊的调整,需要大量的时间精力去维护。但是,他们的算法如果直接搬移到别的应用场景往往就不奏效了,或者效果不理想。
另外一种是提供一种通用的机器学习接口给需要的客户。数据清理、模型调参都需要客户自己去完成。这种方法其实并没有本质上解决问题,而是仍然把流量预测中需要专业人员处理的负担交给了客户。并且,由于业务关系,他们无法取得客户的数据内容,也无法积累机器学习经验。

因此,FreeWheel 的方式的优势主要有两个:

(1)普适性强。因为 FreeWheel 的预测服务供多家客户使用,而每个客户的流量规模和需求又不尽相同,所以同一套算法流程能够在多家客户中求同存异,从技术上讲具有普适性。在很多时候,他们的算法从一个客户迁移到另外一个客户上时往往只是改一个配置的事情,并不会要求客户去承担处理数据和调整模型的压力。
(2)数据种类丰富。FreeWheel 的客户多来自新闻、体育、电视节目等行业,这也使得其系统囊括了多种多样的数据,包括视频文本、视频流量、视频属性等。这些数据是很多其他公司所没有的,而数据充足这一点对于公司的机器学习技术积累来说是一项重大利好。

为了提升视频流量预测的精度,FreeWheel 在已有的技术优势和特点上,还进行了改善与提升。主要基于以下三个方面:

(1)视频聚类算法。当客户提供了人工的视频分类列表,团队需要在此基础上使用预测算法,以达到很高的准确性。预测算法的精度很大程度上取决于视频聚类算法的有效性。
目前,FreeWheel 使用最多的视频聚类算法是基于文本信息进行聚类。研发团队有一些内部的评价指标,比方用某种分类算法,有多少视频集合被成功地检测出周期性,以及最终的预测效果。由于不同的客户的视频情况不尽相同,单一的使用基于文本分类的方法是行不通的。对于每个客户,FreeWheel 会尝试很多不同的视频聚类算法,例如按时长聚类、按视频的属性聚类等,再使用内部的评价指标选取一个最好的聚类算法。
(2)周期性检测算法。周期性检测算法用来检测一个视频组的流量序列是否呈现周期性的变化。如果有,则用机器学习的方法进行预测;如果没有,则用传统的采样方法进行预测。
据介绍,这也是视频流量预测项目中十分重要的一环。如果将没有周期性或者周期性不明显的序列判定为周期性,会极大地影响预测算法的准确性;反之,如果将有周期性的序列判定为没有周期性,则会导致丢失用机器学习方法预测的机会。
对此,FreeWheel 通过不断调整周期性检测算法的阈值和数据压缩方法,人工查看其对于周期性 / 非周期性曲线的判定结果,找到最佳的参数,从而提高整体算法的准确性。
(3)预测算法。影响预测算法准确性的因素主要是预测算法的参数选择和特征抽取方法。目前,FreeWheel 提取的特征为每年的某一天、每月的某一天、每周的某一天。比如,需要预测 2018 年 11 月 18 日(周日)的流量,则会提取上周日,上上周日,…… 和 10 月 18 日,9 月 18 日,…… 2017 年 11 月 18 日,2016 年 11 月 18 日等的流量作为特征进行学习。然后,通过调整学习用到的参数获得最好的预测效果。

4.未来规划

在采访的最后,我们与团队交流了一些未来的规划与想法。

研发人员谢年韬告诉我们,团队目前使用的周期性检测算法仍然是基于传统机器学习的算法,而传统机器学习算法对于周期性检测不够灵活,且存在准确度方面的瓶颈。所以,他们正在尝试使用卷积神经网络(CNN)的方法来有效地压缩数据长度,并且从曲线相似度的视角进行判定。

其次,目前使用的预测算法基于已有数据的周期是年,需要客户有三年及以上的历史数据。也就是说,目前使用的算法对于数据长度是非常敏感的。对此,他们已经开始尝试使用循环神经网络(RNN)去训练数据,该方法对数据的长度没有要求,也不需要流量的周期必须以年为单位。

在基于深度学习的序列到序列(sequence-to-sequence)模型中,FreeWheel 的编码器(encoder)可以对人工设置的任意时间序列长度的流量数据进行编码操作,通过解码器(decoder)得到一个固定长度的流量预测序列,有更强的适应性和拟合能力。

对于未来,FreeWheel 也有一些期许:

(1)从现有的业务层面来看,运用更成熟的技术,通过使用对数据长度不那么敏感的算法,提升对于历史数据没有三年之久的情况的预测;
(2)在周期性检测环节和视频聚类环节上,使用效果更好的算法,达到更好的预测效果;
(3)在业务发展的层面来看,让项目的整个流程上更加灵活。因为不同客户的视频属性差别很大,他们不应该局限于在客户级别做预测,而是考虑不同维度特征的提取和融合。

受访团队简介:
FreeWheel 本次受访团队主要负责包括网站视频流量预测(Seasonality)、视频广告事件概率预测(xTR)、流量异常检测(Anomaly Detection)、视频广告投放风险预测(FFDR)、竞价策略优化(Bidding Strategy Optimization)等业务。团队成员全都来自国内外的优秀学府并有着丰富的机器学习相关的经验。

文章转载自AI前线
在这里插入图片描述


http://chatgpt.dhexx.cn/article/PNGijwZh.shtml

相关文章

FreeWheel是一家怎样的公司?| 人物志

戳蓝字“CSDN云计算”关注我们哦! 人物志:观云、盘点、对话英雄。以云计算风云人物为核心,聚焦个人成长、技术创新、产业发展,还原真实与鲜活! 作者 | 孙浩峰 在知乎上有一个帖子,题目就是“FreeWheel是一家…

FreeWheel创始人/CTO于晶纯访谈:具备大局观方能洞若观火

记者 / 常政 文 / 卢鸫翔 于晶纯(Diane Yu)女士早年曾在在线广告巨头DoubleClick工作,勤奋努力使她突破了“亚裔女性”的“职业玻璃天花板”,成为高级技术管理者。然而却在Google收购DoubleClick之际选择了毅然离开,与几位朋友共同创立了Free…

FreeWheel业务系统微服务化过程经验分享

2016 年下半年开始,FreeWheel 开始将其业务系统从 Rails 单体应用逐步迁移到微服务,同时技术栈从 Rails 改为 Golang,两年之后,整个迁移接近尾声,FreeWheel 业务系统技术团队对外分享了它们在微服务化过程中的经验。 原…

Istio在FreeWheel微服务中的实践

导读 近日,CNUTCon全球运维技术大会在上海举行,FreeWheel具有实战经验的一线技术专家受邀出席大会的“解决方案”专场。会上,专家就FreeWheel 微服务演化过程中因模块之间数据流不断调整而产生的挑战,以及为解决该问题进行的技术…

FreeWheel 首席工程师:我对软件分层设计的思考

在刚刚圆满落幕的亚马逊云科技中国峰会上海站,FreeWheel的Tech Lead曹宇先生和大家分享了现代化应用和无服务器的奥秘。点击下方视频,一探究竟。 今天,我们为大家带来FreeWheel首席工程师杨敏关于软件分层设计的思考和见解,以下为…

freewheel面试java经验

freewheel 一面 自我介绍介绍下对freewheel的认识项目介绍,项目的流量大小,QPS,每天处理多少数据的流量sql题,1 查询表中1-5,2020-08-26 00:00:00的rate(汇率);2 根据rate表&#x…

迈向云原生:名企FreeWheel应用架构演进

FreeWheel是美国传媒巨头康卡斯特(Comcast)集团旗下的高端视频广告技术供应商,90%以上的美国主流电视媒体和运营商都在使用FreeWheel的广告平台和技术。本文将带你了解名企FreeWheel核心业务系统研发团队将单体应用改造成云原生微服务应用的演…

2022年4月16日freewheel机试题

具体题目名字记不太清了,大概如下 第一题 给搜索二叉树的前序遍历结果,重构搜索二叉树,返回根结点。 思路:递归维护两个值,一个是可插入的最大值和可插入的最小值。 1、当前插入的值满足小于可插入的最大值和大于可插…

访FreeWheel总架构师邓就庆:架构与成长之道

特约记者:卢亿雷,精硕科技(AdMaster)技术副总裁兼总架构师,CCF(中国计算学会)大数据专委委员,北京航空航天大学特聘教授。 受访嘉宾:邓就庆(Jack),FreeWheel高…

迈向云原生:名企FreeWheel应用架构演进 | 文末粉丝福利

点击“博文视点Broadview”,获取更多书讯 FreeWheel是美国传媒巨头康卡斯特(Comcast)集团旗下的高端视频广告技术供应商,90%以上的美国主流电视媒体和运营商都在使用FreeWheel的广告平台和技术。本文将带你了解名企FreeWheel核心业…

FreeWheel容力:着眼行业 我们走在视频广告变革的浪尖上

随着大数据、人工智能时代的到来,越来越多的传统企业面临着转型的压力。FreeWheel作为提供高端互联网视频广告投放、监测、预测、增值等关键解决方案的外企,有着很多国际化大数据方案落地的经验。CSDN记者有幸与FreeWheel公司高级副总裁容力,…

FreeWheel是一家怎样的公司?

在知乎上有一个帖子,题目就是“FreeWheel是一家怎么样的公司?”这个帖子获得了85,860的阅读量以及数百条赞同和评论,可以说在“公司怎样系列”的外企中应该是名列前茅了。而在老孙所知晓的众多外企中,FreeWheel应该算是一家蛮特别…

如何把Windows 7英文系统转换为中文系统

如何把Windows 7英文系统转换为中文系统 Windows 7 Ultimate版才有多语言(MUI)支持,但是并非一定要MUI版本才能安装新语言。Windows 7虽然没有MUI的支持,但使用Vistalizator工具可以巧妙避开这一功能,直接将语言包植入操作系统,同…

win7 professional 英文版 改 中文

转载自:http://blog.sina.com.cn/s/blog_6f108d3e0100pl1k.html Windows 7 语言包微软 Windows Update 官方服务器下载For Windows 7 32位:简体:http://download.windowsupdate.com/msdownload/update/software/updt/2009/08/windows6.1-kb972813-x86-zh…

此语言无法安装在此计算机上win7,win7系统无法安装英文语言包解决方法

有用户由于学习或工作需要,需要给win7旗舰版系统安装英文语言包,但是下载了windows6.1-kb2483139-x64-en-us_9b9c8a867baff2920507fbf1e1b4a158572b9b87.exe后点击安装,提示安装失败,尝试在安全模式下安装也失败了。使用lp.cab 以…

wifidog接口文档

wifidog是搭建无线热点认证系统的解决方案之一,他比nocat更适合互联网营销思路。目前支持openwrt系统,他实现了路由器和认证服务器的数据交互,在路由器方是用C语言代码,通过wifidog程序和linux iptables防火墙实现接入用户的认证跳…

公共场所wifi认证解决方案wifidog+authpuppy

服务器:linux mint 17.3 authpuppy 路由器:DB120 wifidog 手机一部 一、在OpenWrt的路由器上安装Wifidog应用程序 安装Wifidog程序有两种方式,一种是在刷了OpenWrt的路由器上直接安装Wifidog;或者是把Wifidog直接编译进OpenW…

wifidog 配置文件

下面回到路由器,编辑wifidog.conf,一般情况下,我们之后配置ExternalInterface,GatewayInterface和AuthServer这三项就可以,其他默认。下面是我的配置: opk安装包:luci-app-wifidog-all.ipk 链…

Portal Server搭建(wifidog安装)

可以参考这篇文档: http://dev.wifidog.org/wiki/doc/install/ubuntu/auth-server#Configurelocaleinwifidog.conf 一、 安装前准备 打开终端(用普通用户进入终端,不要用超级用户)。 sudo apt-get update sudo apt-get instal…

wifidog+authpuppy搭建WiFi 接入设备认证测试平台

0:前提 其实搭建认证环境都是基础,重要的是要对WiFidog的代码进行详细的研究,了解清楚wifidog与authpuppy之间进行了哪些数据交互,WiFidog的程序框架及iptables的建立及生效规则,这才是重点。WiFidog和之前nodogsplas…