1.RFM的重要意义

RFM模型是衡量用户价值和用户创利能力的重要工具和手段

通过用户的近期交易行为、交易频次以及交易金额三个指标描述客户价值

指标	解释	意义
R(Recency)	用户最近一次交易的时间间隔	R值越大，表示越久没有发生交易
F(Frequency)	用户在最近一段时间内的交易频次	F值越大，表示交易越频繁
M(Monetary)	用户在最近一段时间内的交易金额	M值越大，表示交易金额越大

2.RFM的计算逻辑

R分为两类，分值高为1，分值低为0;

F分为两类，分值高为1，分值低为0;

M分为两类，分值高为1，分值低为0;

R、F和M两两组合，可得出8个不同的RFM值

按照实际情况分为八大客户群体，具体分类规则如下:

用户标签	RFM值	用户特点
重要价值	111	最近一次消费时间近，消费频率高，消费金额高
一般价值	110	最近一次消费时间近，消费频率高，消费金额低
重要发展	101	最近一次消费时间近，消费频率低，消费金额高
一般发展	100	最近一次消费时间近，消费频率低，消费金额低
重要保持	11	最近一次消费时间远，消费频率高，消费金额高
一般保持	10	最近一次消费时间远，消费频率高，消费金额低
重要挽留	1	最近一次消费时间远，消费频率低，消费金额高
一般挽留	0	最近一次消费时间远，消费频率低，消费金额低

3.例题

编辑器：jupyter notebook

import numpy as np
import pandas as pd# 读取数据
df = pd.read_excel('./data/订单明细.xlsx')
df.head()

df.info()
'''
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28832 entries, 0 to 28831
Data columns (total 7 columns):#   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         0   订单编号    28832 non-null  object        1   用户编号    28832 non-null  object        2   交易时间    28832 non-null  datetime64[ns]3   交易状态    28832 non-null  object        4   数量      28832 non-null  int64         5   金额      28832 non-null  float64       6   省份      28832 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(4)
memory usage: 1.5+ MB
'''df['交易状态'].unique()
'''
array(['交易成功', '退款成功'], dtype=object)
'''df = df[df['交易状态'] == '交易成功']
df = df[['用户编号','交易时间','金额']]
df.head()

# R: 最近一次交易距今的天数
today = pd.to_datetime('2021-07-21')    # 统计的时间
df_r = df.groupby('用户编号')['交易时间'].max().reset_index()   # 每个用户的最近交易时间
df_r['R'] = (today - df_r['交易时间']).dt.days
df_r = df_r[['用户编号','R']]
df_r.head()

# F: 交易频次，当天多次交易仅计算一次
df['交易日期'] = df['交易时间'].dt.date
tb = df.drop_duplicates(subset=['用户编号','交易日期'])    # 去重
# 以用户编号分组计数
df_f = tb.groupby('用户编号').agg(F=('用户编号','count')).reset_index()
df_f.head()

# M: 交易金额
df_m = df.groupby('用户编号').agg(M=('金额','sum')).reset_index()
df_m.head()

# RFM 合并(df_r/df_f/df_m三表合并)
# join\merge\concat
rfm = df_r.merge(df_f,on='用户编号').merge(df_m,on='用户编号')
rfm.head()

# 如果极端值过多可取中位数
# R指标的均值
avg_r = rfm['R'].mean()
# F指标的均值
avg_f = rfm['F'].mean()
# M指标的均值
avg_m = rfm['M'].mean()# R指标的分值
rfm['R_score'] = (rfm['R'] < avg_r) * 100    # 100用于做分类，也可用其他值
# F指标的分值
rfm['F_score'] = (rfm['F'] > avg_f) * 10
# M指标的分值
rfm['M_score'] = (rfm['M'] > avg_m) * 1rfm.head()

# 总分值
rfm['Total_score'] = rfm['R_score'] + rfm['F_score'] + rfm['M_score']
rfm.head()

rfm['Total_score'].unique()
'''
array([  1,   0,  11, 111, 100,  10, 110, 101])
'''dct = {111:'重要价值',110:'一般价值',101:'重要发展',100:'一般发展',11:'重要保持',10:'一般保持',1:'重要挽留',0:'一般挽留'
}
rfm['用户标签'] = rfm['Total_score'].map(dct)
rfm.head()

rfm['用户标签'].unique()
‘’‘
array(['重要挽留', '一般挽留', '重要保持', '重要价值', '一般发展', '一般保持', '一般价值', '重要发展'],dtype=object)
’‘’# 各类用户的人数统计
cnt = rfm['用户标签'].value_counts().reset_index()
cnt.columns = ['用户标签','人数']
cnt['人数占比'] = cnt['人数'] / cnt['人数'].sum()
cnt

# 各类用户的金额统计
rfm['金额'] = rfm['M']
amt = rfm.groupby('用户标签')['金额'].sum().reset_index()
amt['金额占比'] = amt['金额'] / amt['金额'].sum()
amt

result = pd.merge(cnt,amt,on='用户标签')
result['人数占比'] = result['人数占比'].apply(lambda x: '{:.2%}'.format(x))
result['金额占比'] = result['金额占比'].apply(lambda x: '{:.2%}'.format(x))
result = result.sort_values(by=['金额','人数'],ascending=[False,False])
result

# !pip install pyecharts==1.9.1from pyecharts.charts import *
from pyecharts import options as opts# 绘制饼图
pie = Pie(init_opts=opts.InitOpts(width='1000px',height='500px'))  # 实例化类，并调节大小
pie.add('交易金额',result[['用户标签','金额']].values.tolist(),radius=['20%','70%'],rosetype='radius',center=['25%','50%']  # 第一项是相对于画布的宽度，第二项是相对于画布的高度，默认是百分比形式，参考点为圆心
)
pie.add('交易人数',result[['用户标签','人数']].values.tolist(),radius=['20%','70%'],rosetype='radius',center=['75%','50%']  # 第一项是相对于画布的宽度，第二项是相对于画布的高度，默认是百分比形式，参考点为圆心
)
pie.set_series_opts(label_opts=opts.LabelOpts(formatter='{d}%'))    # {a} 交易金额或人数；{b} 用户标签；{c} 指标的数值；{d} 百分比
pie.render('RFM模型分析.html')
pie.render_notebook()