大数据分析--用户画像

article/2025/9/18 17:05:28

从去年还在北京工作的时候就开始不断的听说,用户画像、用户画像,而且,有个项目,项目领导美其名曰:用户画像,这么长时间,也没有真正的思考过什么叫用户画像。前几天看到一篇关于这方面的文章,决定整理消化,希望通过这种方式可以成为我自己的知识。

一、什么是用户画像(user profile)

用户画像,简而言之就是对用户信息的标签化,如图1所示。



二、为什么需要用户画像

用户画像的核心工作是为用户打标签,一方面,标签化是对用户信息的结构化处理,方便计算机识别和处理,方便进行分类统计(男女比例)、数据挖掘(利用关联规则计算喜欢红酒和喜欢运动品牌的关系)、推荐引擎、广告精准投放等;另一方面,标签本身具有准确性和非二义性,有利于人工整理、统计、分析;

三、如何构建用户画像

标签:人为规定的高度精炼的标识,如年龄段标签:25-35岁,地域标签:北京,标签本身无需进行文本预处理工作;
用户信息一般可以分为两类:静态信息和动态信息。
静态信息:例如:性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等。微博本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等,在收集和清洗用户属性的过程中,需要注意的主要是标签的规范化以及不同来源信息的交叉验证。
动态信息:用户不断变化的行为和兴趣信息,首先兴趣受到人群、环境、热点事件、行业……等方面的影响,一旦这些因素发生变化,用户的兴趣容易产生迁移;其次,用户的行为(特指在互联网上的行为)多样且碎片化,不同行为反映出来的兴趣差异较大。
以下从两个行业构建用户的动态标签:
微博用户兴趣标签:
1、标签来源:
用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外,他关注用户的标签也会传递到该用户身上。如图2所示(蓝色实线代表关注关系,橙色虚线代表兴趣标签来源)。


2、标签权重:

在收集到一个用户可能存在的标签后,还需要给标签赋一定的权重,用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量,标签的传递路径,转发关系,标签的本身,以及标签与用户之间的共现关系都会考虑在内。

不同质量的用户自身产生的标签权重不一样,质量越高,认为该标签的可信度越高,无论是将该标签赋给自己还是传递出去的时候其权重值越高。标签的传递路径主要是针对基于关注关系的标签传递,亲密度比较高的关注用户传递过来的标签权重值会比较高。标签是来自于用户的原创还是其转发的微博,权重值会有区别,一般来说原创的权重会高于转发权重。如果标签本身是一个非常常见的词,那么它用于刻画用户的兴趣的区分性是比较差的,相反如果是一个长尾词,则区分性较强。出于这样的考虑,越是长尾词,标签的权重值会越高。标签与用户的共现关系是指用户和该标签是否经常共同出现,评价的是两者的关联性。关联性越高,则标签的权重值越高。综合上述的因素,一个标签对于特定用户的权重值可以大致表示为:标签权重 = (来源因子 + 亲密度因子 + 转发因子 + 长尾因子) × 共现因子。

3、时效性:(时间衰减函数)

随着时间的变化,用户的兴趣会发生转移,时间越久远,标签的权重应该相应的下降,距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑,一般会在标签权重值上叠加一个时间衰减函数,这个时间衰减函数被设计成如图3所示的指数衰减的形式,通过定义衰减幅度和半衰期,调节衰减的程度,体现不同的时效性。

此外,针对用户的兴趣,还会设定一个较小的时间窗口来获取用户的短期兴趣。通过用户在短时间内的原创、转发和关注行为收集兴趣标签,并计算标签的权重。短期兴趣更新周期会较长期兴趣更短,兴趣更集中,但是能够比较及时地反应用户兴趣的变化。

4、从兴趣到能力

然而,用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。因此,在挖掘了用户兴趣标签的基础上,还需要发掘哪些用户能够针对特定的标签具有一定的内容生产能力。

微博中的关注关系可以认为是一种认证,具有相同兴趣的用户之间的关注则有可能是兴趣相投(当然也可能不是,但毕竟有一定的指导性),那么将具有相同兴趣标签的用户提出来,通过关注关系构成一个图,被认证得最多的用户(被关注边指向得最多)被认为在这个兴趣标签上具有最强能力。如图4所示中的带红色边框的用户。


电商用户兴趣标签

1、标签来源

电商网站的用户标签主要来源于用户浏览过的网页内容;比如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。则用户标签为:红酒,长城;

2、标签权重:

电商网站的用户标签主要受以下几方面的因素影响:

(1)时间因素:时间包括两方面信息:时间戳+时间长度,时间戳表征了用户的行为时间点,时间长度表征了用户在某一页面的停留时间。通过时间因素可以确定权重计算的时间衰减因子(时间戳),比如该用户行为发生在昨天则衰减因子为0.95。

(2)地点,即用户接触点(touch point):包含两层信息(网址+内容)。

网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面,网址决定了网址权重因子。

内容:每个url链接中的内容。可以是单品的相关信息,比如:类别、品牌、描述、属性、网址信息等,通过页面内容可以确定用户的标签,如红酒、长城、干红等。

例如:用户在京东商城浏览红酒信息和在品尚红酒网浏览红酒信息,表现出对红酒的喜好程度不同,所以网址权重因子也不同。

(3)用户行为:对于电商网站用户有以下典型行为:添加购物车、搜索、评论、购买、收藏等,对于不同的用户行为,权重不同。

综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识 + 时间 + 行为类型 + 接触点(网址+内容),某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

电商用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:

标签权重=衰减因子×行为权重×网址子权重

如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

  • 标签:红酒,长城

  • 时间:因为是昨天的行为,假设衰减因子为:r=0.95

  • 行为类型:浏览行为记为权重1

  • 地点:品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7)

假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。

则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。

以上并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。

核心在于对用户接触点的理解,接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商,但其实,可以根据产品的不同,重新定义接触点。比如影视产品,我看了一部电影《英雄本色》,可能产生的标签是:周润发 0.6、枪战 0.5、港台 0.3。

最后,接触点本身并不一定有内容,也可以泛化理解为某种阈值,某个行为超过多少次,达到多长时间等。比如游戏产品,典型接触点可能会是,关键任务,关键指数(分数)等等。如,积分超过1万分,则标记为钻石级用户。钻石用户 1.0。


参考文章地址:http://blog.csdn.net/youngspy23/article/details/51093498



http://chatgpt.dhexx.cn/article/Fbk5sU7a.shtml

相关文章

【数据分析】京东平台用户画像分析

1.用户信息标签 用户信息的收集包括用户基础要素、用户场景、行为偏好、心理个性、交际等多方面。 可以用静态标签、动态标签两大类来划分。 静态数据:用户相对稳定的信息,主要包括人口属性、商业属性等方面数据;这类信息果企业有真实信息则无需过多建…

用户画像解析

用户画像是大数据行业言必及之的时髦概念。现在我们运营谈及用户画像,它也是和精准营销、精细化运营直接钩挂的。这篇文章主要讲产品和运营角度的用户画像。 一、什么是用户画像 用户画像一点也不神秘,它是根据用户在互联网留下的种种数据,主…

用户画像分析总结

一、 什么是用户画像 用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户&…

用户画像详解来了

导读:今天主要和大家分享明略对于用户画像的认识,包括如何理解用户画像,为什么需要用户用画像,以及明略在建设和应用用户画像过程中总结的方法论,让大家了解如何构建好的用户画像。 01 什么是用户画像 首先来看用户画像…

Python的import

Python里面的import语句用于导入一个已经写好的包或者模块 使得自己的程序里面可以使用导入的模块里面的函数、变量等 import name 导入numpy模块,里面有一个shape函数,要使用这个函数,numpy.shape()即可 但是不加numpy就不行,…

python-import this

优美胜于丑陋(python 以编写优美的代码为目标) 明了胜于晦涩(优美的代码应该是明了的,命名规范,风格相似) 简洁胜于复杂(优美的代码应当是简洁的,不要有复杂的内部实现&#xff09…

import re

元字符 px* 可以匹配 p px px... px 可以匹配 px px... 但是不能匹配到p默认的匹配都是贪婪匹配 贪婪匹配就是一次匹配尽可能多的内容比如正则是 aoe 要匹配的字符串是 aoeeeeee 它可以匹配到aoeeeeee 但是如果正则是 aoe? 的话 它只能匹配到aoe ?放在 * {n,m}是取消贪婪匹…

1.连接服务器

1 使用服务器 参考文章:https://blog.csdn.net/longgeaisisi/article/details/78680180 双11通过团购入手阿里云服务器会得到一个提货券,同时收到短信提醒,跟着短信链接,进入阿里云控制台使用提货券。然后,会出现选项…

windows下连接服务器

一、windows下连接服务器 xhsell 是一个windows的软件 是用来连接远程服务器的 使用的是ssh协议 xftp 一个windows的软件 用来给服务器 上传或者下载文件的一个工具 ftp协议 shell环境 是运行命令的环境 shell脚本 用于给运维人员 来去做批量处理的 一个语言shell语言编写的一个…

linux之连接服务器

1. 背景 通常连接服务器使用ssh usernamehostname的方式,其中uername是用户名,一般为root等。hostname为ip地址。但是ip地址通常不容易记住,因此会将ip地址与一个名称相对应,然后直接使用名字来登陆服务器。 2. ip与name的映射 …

远程服务器怎么连接

利用windows自带远程桌面连接服务器,海星星 日付服务器 碉堡了 工具/原料 远程桌面 IP地址账号 方法/步骤 1 本商品直接使用WINDOWS自带的远程桌面连接就可以进行使用。 点开始——点运行(或者直接用窗口键[win]R)————在运行对话框输入m…

连接服务器

连接是什么意思 创建套接字之后,应用程序(浏览器)就会调用connect,随后协议栈会将本地的套接字与服务器的套接字进行连接。话说,以太网的网线都是一直连接的状态,我们并不需要来回插拔网线,那么…

创建链接服务器

GPS平台、网站建设、软件开发、系统运维,找森大网络科技! https://cnsendnet.taobao.com 来自森大科技官方博客 http://www.cnsendblog.com/index.php/?p1862 给SQL Server创建连接服务器 一、 可视化界面操作 1.点击“新建连接服务器” 2.“常规”选…

如何连接云服务器

** - 本篇文章是:教跟我一样一开始不会连接远程云服务器的小白们 ** 首先你已经有一个公网ip(在阿里云/腾讯云/等等许多地方都可以租到) 注:作者本人申请了一个试用的华为云2008Windows64bit的服务器 以下教你如何一步步连接…

连接到服务器(1)

问题一(未找到或无法访问服务器) 标题: 连接到服务器 ------------------------------ 无法连接到 TOM-PC。 ------------------------------ 其他信息: 在与 SQL Server 建立连接时出现与网络相关的或特定于实例的错误。未找到或无法访问服务器。请验证…

如何连接服务器

1&#xff1a; 先进入 C:/uers/<username>/.ssh/config 2:添加 Host <IP> HostName <IP> User <username> 3进入vscode 设置 搜索 remote 然后连接

远程连接服务器

1、什么是远程连接服务器 远程连接服务器通过文字或图形接口方式来远程登录系统&#xff0c;让你在远程终端前 登录 linux 主机以取得可操作主机接口&#xff08;shell&#xff09;&#xff0c;而登录后的操作感觉就像是坐 在系统前面一样。 2、远程连接服务器的功能 分享主机…

手把手教你如何连上实验室的服务器

目录 1.服务器到底是啥 2.怎么连上实验室的服务器 3.服务器文件与本机文件交互 4.服务器空闲查询 5.VSCode远程连接服务器 6.python实验环境配置​​​​​​​ 好了&#xff0c;数据集准备好了&#xff0c;网络模型也搭好了&#xff0c;是骡子是马就差把它拉出来遛一遛了…

撸一撸Spring Framework-IoC-资源管理利器(Resource、ResourceLoader、ResourcePatternResolver)

撸一撸Spring Framework-IoC系列文章目录 IoC概述 BeanFactory ApplicationContext BeanDefinition BeanWrapper 资源管理利器(Resource与ResourceLoader) 配置管理(Environment与PropertySource) 实现通用功能的利器(PostProcessor机制) 我们经常需要读取外部资源到应…

uni-app 资源在线升级/热更新

HBuilderX 1.6.5 起&#xff0c;uni-app 支持生成 App 资源升级包。 生成 App 资源升级包 修改版本号 首先&#xff0c;更新 manifest.json 中的版本号。 比如之前是 1.0.0&#xff0c;那么新版本应该是 1.0.1 或 1.1.0 这样。 发行 然后&#xff0c;在 HBuilderX 中生成升…