什么是用户画像？如何构建用户画像？

我们通过这篇文章，介绍我们理解的两种用户画像（User Persona 和 User Profile），以及如何构建用户画像（User Profile）的标签体系并驱动产品智能。

User Persona

第一种用户画像（User Persona）是产品设计、运营人员从用户群体中抽象出来的典型用户：

在用户调研阶段，产品经理经过调查问卷、客户访谈了解用户的共性与差异，汇总成不同的虚拟用户；
在产品原型设计、开发阶段，产品经理围绕这些虚拟用户的需求、场景，研究设计产品用户体验与使用流程；
当产品设计出现分歧时，产品经理能够借助用户画像，跳出离散的需求，聚焦到目标用户，不再讨论这个功能要不要保留，而是讨论用户可能需要这个功能，可能如何使用这个功能等等。

例如某招聘类产品在调研阶段构建的用户画像（User Persona）：

(图片引用自 https://www.clearvoice.com)

所以，这类用户画像（User Persona），本质是一个用以描述用户需求的工具，它帮助不同角色在产品研发过程中，站在用户的角度思考问题。

在产品设计阶段和原型开发阶段，产品经理会较多地借助用户画像（User Persona）理解用户的需求，想象用户使用的场景。随着产品上线后不断迭代，积累真实用户，仅通过用户画像（User Persona）难以量化地评估用户需求，也很难通过数据证伪，不确定用户画像（User Persona）虚构的人物是不是真的目标群体。同时，真实用户群体也随时间推移变化，在设计阶段虚构的用户画像（User Persona）需要重新调研、设想。

User Profile

与此同时，我们也希望通过产品积累的用户行为数据，为产品运营提供更好的支撑，例如根据用户浏览记录向用户提供个性化服务。这就是本文着重介绍的第二种用户画像（User Profile）——根据每个人在产品中的用户行为数据，产出描述用户的标签的集合。例如猜他是男是女，生活工作所在地，乃至喜欢哪个明星，要买什么东西等。

随着“千人千面”等理念深入人心，在与许多企业客户的沟通中，我们希望客户更加清楚两种用户画像的差异。与第一种用户画像（User Persona）不同的是，用户画像（User Profile）的建设更加关注：

是否反应受众的真实需求：用户画像（User Profile）这个词的字面意义，是关注人口属性、生活状态等静态信息，但这些信息并不一定直接反应用户兴趣。产品更关注的往往是某用户“最近喜欢看哪类视频”、“准备买多少钱的手机”这样能帮助产品运营的动态信息；
时效性：用户的兴趣偏好随时都在发生变化，需要及时更新用户标签；
覆盖度：用户画像（User Profile）既要勾勒出用户感兴趣的内容，也要记录用户不感兴趣的信息，尽量多地满足产品运营的需要。但同时，除了人口属性等明确的属性外，大多数用户画像的正确与否是没有意义的。如“最近喜欢看搞笑视频”这个标签，并不表示用户下一次一定观看搞笑视频，因此执着于提升标签的准确度，不如设计出多更清晰描述受众需求的标签，更多时候我们注重提升用户画像的覆盖度，同时提供更细粒度的画像。

设计用户画像的标签体系

用户画像（以下均指 User Profile）一般通过标签体系落地，简单说就是你把用户分到多少个类里面去，当然，每个用户是可以分到多个类上的。这些类都是什么，彼此之间有何联系，就构成了标签体系。通常有两种思路设计用户画像的标签体系。

一是结构化的标签体系，这类标签可以直接从人口属性、物品信息等基本信息中直接得到，有明确的层级关系，如性别、省市、视频分类、商品分类等。

(图片源自 http://www.amazon.cn)

结构化的标签体系通常较为简单，一般可以直接通过用户的行为映射得到，例如根据用户的购买记录，为用户构建物品对应的结构化标签。但结构化标签往往粒度较粗，无法充分衡量用户的兴趣，例如新闻类 App 中用户阅读了一条关于某明星的娱乐类新闻，其实无法推断出他对所有娱乐类新闻感兴趣，也不一定只对该明星情有独钟。

另一种是非结构化标签体系，就是各个标签各自反应各自的用户兴趣，彼此之间并无层级关系。典型的非结构化的标签，如搜索广告系统中的关键词，或者阅读类产品中的文档主题模型（Topic Model），或者向量化的用户、物品 Embedding。

标签体系的建设一要便于使用，二要区分度明显。结合具体产品而言，在不同的场景下，对这两点的要求重点是不同的。最终在产品中选择哪些标签并没有明确的依据，还是需要充分了解到底是什么驱动用户使用产品。有效的标签体系，要能反应用户决定买什么、不买什么的逻辑与依据。例如电商产品中，以新闻频道的方法，为用户构建“财经、体育、旅游、…”这样的标签，虽然并不难，但也没多大意义。

用户画像行业实践

神策数据与国内某知名视频聚合网站共同建设视频推荐服务。该网站每天聚合全网的视频，向用户提供热门视频、视频检索等服务。网站已经积累了大量的用户和行为数据，围绕新、老用户的运营模型在发生着变化。

与传统的视频站点不同，短视频的运营特点有：

播放随意性强：短视频播放虽然是个高频、周期性强的娱乐应用，但单次观影时间短，用户选择随意性大；
热点轮换迅速：平台中不断加入新视频，每天的热门内容不断变化，网站需要发现用户潜在的兴趣点，向用户推荐新鲜内容；
场景驱动：场景是特定的时间、地点和人物的组合下的特定的消费意图。不同的时间、地点，不同类型的用户的消费意图会有差异。例如白领乘地铁上班，会关注当日的新闻热点；周末晚上在家，用户更喜欢点击娱乐搞笑视频。场景辨识越细致，越能了解用户的消费意图，推荐满意度也就越高。

随着视频资源的不断丰富和用户需求的多样化，如何准确向客户推荐视频，是该产品用户画像的一个基本目标。我们十分看重推荐系统中，推荐结果的可解释性，既让用户能感觉到每一条推荐视频的推荐理由。因此，我们构建用户画像也以观看场景和观看兴趣为主。

用户画像

我们考虑新用户和老用户两大类群体。新用户第一次进入 App，在这一阶段的运营目标以留存为主，主要向用户推荐近期热门视频。除了常规的设备信息、地理信息外，我们对用户了解甚少，可以通过猜测下列问题：

用户在哪里？
这个时段可能处于什么场景？

构建用户画像，进行场景推荐。这两种标签的获取较为直接，通过用户手机的地理位置信息和当前时段就可以得到。不同场景下，我们向新用户推荐不同的视频，例如：

工作日，7:00-10:00：用户可能搭乘公共交通工具前往公司，乘车时使用 3G/4G 流量上网，时间较为碎片化，并且容易受到打扰而中断观看。通常，这个时段用户希望了解当天的时事、新闻。因此我们推荐短小精悍的热点新闻；
工作日，12:30-14:00：用户可能在公司午休，我们推荐娱乐、搞笑类的视频，目的性较弱，随意寻找符合自己口味的内容，但有可能因为午睡或工作，观影时间碎片化。因此，我们推荐视频时长较短，娱乐、搞笑类的视频，如X奇艺的“笑X来了”等；
周末，19:00-23:00：用户可能在家中休息，观看时间较为充足；使用 Wifi，速度稳定；这个时段用户目的性通常较强，例如看看 ”XX歌手”、“XX男” 等综艺节目的热门片段更新没有。因此我们可以推荐综艺节目、电影片花等，满足用户长时间放松的需求。

通过场景推荐的方式，我们在不了解用户兴趣的情况下，针对不同场景标签下的新用户推荐不同热门视频，满足用户需求。

而对于老用户，运营目标是提升用户体验，向用户推荐感兴趣的内容，能提高观影时长；结合场景推荐用户可能感兴趣的新鲜内容，能提高用户留存率。除常规信息、场景信息外，构建老用户的用户画像还会考虑：

用户在不同时段的兴趣点
用户是否喜欢探索新鲜视频
用户召回需求

对于第一类“用户兴趣标签”，可以通过视频本身的分类信息构建结构化的兴趣标签。

我们在实际处理中，将每个用户最近观看记录作为一个观影序列，通过 Item2Vec（《Item2Vec: Neural Item Embedding for Collaborative Filtering》, https://arxiv.org/pdf/1603.04259v2.pdf）产出视频的Embedding 矩阵，并用 Bag of Words 的思想以每个用户的最近观看记录描述用户兴趣，得到用户 Embedding，作为用户兴趣标签。

通过用户兴趣标签，我们可以将用户兴趣融入前文描述的场景推荐中，例如在工作日的 7:00-10:00，我们根据用户兴趣，从热点新闻中筛选用户感兴趣的军事、财经等品类；在周末的 19:00-23:00，我们根据用户上周的观影记录，重复推荐相同的新一期的综艺类节目。

对于第二类“用户新鲜度需求标签”，我们通过衡量用户观影记录中，各影片之间的相似度得到。影片分类覆盖越多，或影片之间的向量距离越远，说明用户越喜欢探索新内容。

对于喜欢探索不同类型的视频的用户，我们会更倾向于从用户未观看过的分类中，抽取新鲜热门视频加入推荐排序结果中。

现在互联网产品的获客成本很高，神策分析可以通过多维分析的方式寻找用户流失的原因，同时我们也通过统计方法预测用户流失风险。

对于视频网站的老用户，观影习惯和场景通常较为固定，当用户最近一段时间内的观看频次显著低于过往，甚至没有打开 App 时，我们判定用户有流失风险，可以通过推送感兴趣的视频等手段，召回用户。

小结

短视频是一个高频、随意性强的产品，用户的观看行为受时间、场地等场景因素影响较大，需要对用户在不同场景下的观看行为做深入了解，归纳不同场景下用户个体需求、群体需求的差异，针对不同场景制定相应的推荐策略，这也是我们选择场景作为短视频产品用户画像的突破口的原因。

同时我们在构建视频推荐的用户画像时还面临如下挑战：

数据稀疏性：个人的观看记录相对整体的覆盖度是十分低的，不同的个体间重合度也很低。我们需要从这些稀疏的数据中得到个体、群体的兴趣标签。
用户兴趣变化快：用户的兴趣点随时间、热点变化，用户观看了几次关于某明星的短视频，并不代表第二天或未来用户会对他感兴趣。我们需要分别构建用户短期、长期的兴趣标签。
场景识别难：目前我们的场景识别以时间段为主，未加入地理位置信息，而后者能显著提高细粒度场景识别的准确度。