作者 | gongyouliu
编辑 | auroral-L
全文共4915字,预计阅读时间45分钟。
购物篮分析的基本概念、商业价值与算法介绍
1. 什么是购物篮分析
2. 购物篮分析的商业价值
2.1 指导线下门店商品排列、摆放
2.2 优化线下采购、供应链与库存
2.3 为活动营销提供数据支撑
3. 购物篮分析的相关算法介绍
4. 总结
5. 参考文献
因果关系是现实世界中最基本的一种关系。人类是一种对因果关系有强烈偏好的生物,甚至可以说人类的思维有点被因果关系固化了。我们遇到任何事情一般都喜欢找原因,一旦找到了自认为合理的原因,就更容易接受这件事情。
因果关系确实非常重要,世界上很多问题之间确实存在因果关系,因果关系可以用理性思维进行思考,可以从数理角度利用逻辑思维进行推理,这是因果关系的优势,也是为什么人们这么执着于研究因果的原因之一。关于因果关系的研究非常多了,其中最出名的要算图领奖得主、贝叶斯网络之父朱迪亚·珀尔了,他有多本关于因果关系的研究著作,如《启发法》、《智能系统中的概率推理》、《因果论:模型、论证、推理》,他最新的一本相关专著《为什么:关于因果关系的新科学》是对因果关系在当代世界,特别是人工智能时代的最新诠释。
但是,因果性不是解释世界的全部规则,有些现象是很难或者无法用因果关系解释的(比如抽烟是否是引起肺癌的直接原因,这个在医学上也无定论)。随着数据科学(特别是大数据技术)的发展,我们发现了非常多的无法用因果来解释的现象。这类无法用因果来解释的现象往往存在相关性,也就是一件事情A的发生伴随着另一件事情B的发生,但是它们之间没有明显的因果关系,即不是A导致了B也不是B产生了A,A和B仅仅(或许是碰巧)同时出现。这类现象就是另一类描述世界的规则,即相关关系。
关于相关关系,大家最耳熟能详的莫过于啤酒与尿布的故事了。该故事发生在20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难以置信的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮(用户一次购物所买的所有商品形象地称为一个购物篮)中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去毫不相干的商品经常会出现在同一个购物篮的现象。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以方便地同时找到这两件商品,并很快地完成购物。这样做沃尔玛超市就让这些客户一次购买了两件商品、而不是一件,从而获得了更好的商品销售收入,这就是“啤酒与尿布”故事的由来。
上面的啤酒与尿布的故事即是零售行业中被大家所熟知的购物篮分析中的一个案例。购物篮分析也是我们这个系列文章的主题。这个系列文章一共分为3篇,本文是第一篇。后面我们会讲解购物篮分析的算法原理与代码实现和购物篮分析的场景应用。下面我们进入第一篇的主题。在第一篇我们会讲解什么是购物篮分析、购物篮分析的商业价值、购物篮分析的相关算法介绍等3个方面的主题。
一、什么是购物篮分析
前面已经对购物篮分析的背景做了比较全面的介绍。下面我们来说说购物篮分析的定义。为什么叫做购物篮分析呢?这是因为大家进超市(特别是像沃尔玛这类大卖场)一般会拿一个购物篮(或者推车,见下图),方面选购商品。我们在购物过程中将自己想买或者喜欢的东西放到购物篮中,最终选择好后去收银区结账。
每个人最终结账离开超市时,他的购物篮中所有一次购买的商品的集合,就叫做一个购物篮。所谓购物篮分析,就是分析一段时间内所有客户的购物篮(当然,一个客户这段时间可能去这个超市购买过多次商品,那么这个客户就存在多个购物篮)商品的规律与特性,希望通过数据分析与挖掘,发现其中的规律(特别是哪些商品是经常被一起购买的,就像上面的啤酒与尿布一样),更好地用于超市做商品的排列、采购、推广与营销,最终提升用户体验,产生商业价值。
二、购物篮分析的商业价值
前面提到的啤酒与尿布的故事,说明啤酒和尿布经常被一起购买。本来啤酒和尿布是风马牛不相及的物品,但是在现实世界中却真实地存在这种购买的关联性,可能出乎所有人的意料,这是典型的相关性分析得到的结论。
购物篮分析是一种基于用户行为的(大)数据进行相关性分析的方法,它基于全体客户在一段时间的购物篮数据,通过数据分析挖掘的技术手段发现其中隐藏的相关性规律。最终利用这些通过数据挖掘得出的相关性结论更好地服务客户,产生商业价值。
相关性分析可以分析出哪些商品或者商品组合经常被一起购买。如果找到了这些经常一起被购买的商品组合,就可以做很多有价值的事情了。这些价值至少可以体现在如下3个方面:
1. 指导线下门店商品排列、摆放
经常被一起购买的商品在线下店就可以摆放在空间上位置靠近的地方,方便顾客选购,减少顾客的找寻时间,这在提升用户体验的同时,无形也增加了商品的销售量,最终获得了更多的销售收入。
如果是像淘宝、京东这种网店,经常购买的商品其中一个商品可以作为另外一个商品的相关推荐,提升相关性商品组合一起被曝光的概率,促进用户购买转化(下图就是在盒马APP上浏览八喜,下面给出的搭配推荐)。这一块我们会在第三篇的应用场景中讲解。
2. 优化线下采购、供应链与库存
经常被一起购买的商品在采购、打包、运输、库存中都可以放在一起统筹规划,比如选择同一个地域的供货商,存放在仓库相近的地方等等。关于这一块的介绍 ,读者可以搜索查阅相关材料。
3. 为活动营销提供数据支撑
经常被一起购买的商品也可以被用于做营销活动(甚至相关商品的品牌方也可以一起做联合营销),比如一起购买可以打折,买其中一个贵的送另外一些经常一起购买的便宜的等等。
上面只是购物篮相关性分析中几个大家可以比较容易想到的商业案例,更多的应用场景需要结合企业的实际情况进行尝试和探索。购物篮分析中最重要的其实是将用户的购买行为数字化。有了数据作为基础和资源,剩下的就是采用数据分析、数据挖掘、机器学习等算法对数据进行探索,挖掘潜在的商业价值了。有了用户购物的行为数据,不拘泥于相关性分析获得的商业价值,其实可以挖掘出非常多的其他商业价值。下面我对用户购物数据的其他价值也做一些简单的梳理,给大家提供一些思考的思路和更广的视角。
只要收集到了一段时间内客户的购物数据,将数据数字化(录入超市的信息化系统中),就可以采用简单的统计分析(如果数据存在SQL等关系型数据库中,只需要一条SQL语句)就可以统计出哪些物品是经常被客户购买的。
知道了最常购买的商品(即畅销品或者日销品)有什么用呢?相信大家很容易想到用处。首先,对商场采购订货肯定有帮助,最常购买的商品的货源、供应链等需要得到很好的保障,需要商场重视,保障货源充足。另外,热购商品的摆放也是可以优化的。很多商店将热门商品摆放在最显眼、客户最容易拿到的地方。很多超市将口香糖、避孕套等放在结账的地方也是基于这个原因。
很多商品的购买可能存在时段和季节性波动。比如鲜奶一般是早上购买比较多,而蚊香是夏天购买。通过购买的时间分析,可以大致知道某些商品在时间及季节上的波动规律,分析上面的购买时间周期变化规律。更好地帮助商家做货物的采购、储备、营销。
如果结合用户画像信息(怎么获得用户画像信息有很多方法,比如有些公司可以有会员体系,用户可以注册线上的APP,这样可以获得用户的相关信息。另外,如果商场中有摄像头等设备也是可以获得用户大致的画像的,这些不在本文分析范畴,不赘述),就可以分析不同群体的购买特性(比如不同性别、不同年龄段、不同收入等的购买差异),做个性化的营销。
很多零售企业是连锁企业(甚至是跨国企业),他们可以收集不同门店上的销售数据,对不同地域做地理位置相关的数据分析,挖掘不同地域用户的购买行为,针对不同地域做定制化的策略。比如,不同地域的用户可能热销的商品不一样,不同地域的用户经常一起购买的商品也不一样,不同地域的用户购买时段季节性变化也可能不一样。这种更加精细化的分析,有利于针对不同地域(甚至不同门店)采用适合当地的策略。
很多零售企业既有线上APP也有线下实体店(如盒马有盒马APP还有盒马线下店),那么怎么联动线上、线下就是非常有价值的。线上店也有所谓的购物篮(用户在APP上一次购买的商品也可以看成一个购物篮),这同样可以采用购物篮分析的方法和策略。
如果一个零售企业开始只做线上的,后面要开始做线下,那么线上的数据分析是可以赋能线下业务的。比如基于线上的用户购买行为数据分析,也可以挖掘出前面提到的各种信息(比如热门商品、经常一起购买的商品等),这些信息就可以直接用于线下门店的选品和排列。反之亦然。
线上的数据也可以用于线下门店的选址。比如可以分析线上用户的购买情况,获得不同地域用户的分布情况,这有利于指导商家在不同地域开设门店的数量决策和位置选址。
总之,在当前互联网红利殆尽的背景下,线上线下融合、联动是方向,更是机会。线上线下融合,互相赋能是零售行业的未来趋势,谁能够抓住这个趋势谁就获得了通往零售行业(甚至是任何行业)下一个黄金发展阶段的门票。
三、购物篮分析的相关算法介绍
前面我们对购物篮分析的背景、基本概念、商业价值进行了细致的分析。在这一节我们来简单介绍一下购物篮分析的相关算法。本节我们不做深入介绍,更细节的算法原理和代码实现介绍我们会放在第二篇。
挖掘出最常被一起购买的商品所用的分析方法是典型的相关性分析方法,这里可以用数据挖掘领域中的关联规则算法来实现,关联规则也是数据挖掘领域最经典的算法之一。
在讲之前,我们做一些数据和符号上的假设,方面下面我们的具体分析。假设是所有商品的集合,一共有 n 个商品。在一定时间周期T1到T2内(T2-T1足够大,保证下面的分析有统计显著性)。一共有 m 个购物篮,具体如下:
............
下面我们给出关联规则的定义。关联规则一般表示为 的形式,其中是的子集,并且。关联规则表示如果在用户的购物篮(即)中,那么用户有很大概率同时购买了 。
关联规则的度量指标主要有支持度(support)和置信度(confidence)两个,支持度是指所有的购物篮中包含的购物篮的比例(即同时出现在一次交易中的概率),而置信度是指包含的购物篮中同时也包含的比例(即在给定的情况下,出现的条件概率)。它们的定义如下:
支持度越大,包含的交易样本越多,说明关联规则有更多的样本来支撑,“证据”更加充分。置信度越大,我们更有把握从包含的交易中推断出该交易也包含。关联规则挖掘中,我们需要挖掘出支持度和置信度大于某个阈值的关联规则,这样的关联规则才更可信,更有说服力,泛化能力也更强。
所谓的关联规则挖掘就是从所有的购物篮中,挖掘出所有支持度(support)和置信度(confidence)大于某个阈值的所有关联规则。这时我们就可以说X、Y具有相关性,购买了X的用户很大可能会购买Y。
从上面的简单分析可以看到,基于关联规则的算法思路非常简单朴素,算法也易于实现。通过定义关联规则的度量指标,一些最经典的关联规则算法(如Apiori)能够自动地发现所有关联规则(参见下面的参考文献1、2、3)。在大数据场景下,也有很多分布式实现方案,这里简单提一下Spark Mllib中有关联规则的两种分布式实现FP-Growth和PrefixSpan,大家可以直接拿来使用,具体实现细节读者可以阅读参考文献4、5、6。本节我们不对算法的具体实现原理做介绍,我们会在下一篇详细讲解算法的原理和代码实现方案。
四、总结
关于购物篮分析的第一篇我们就讲到这里,最后我们总结一下。我们开始讲解了相关性有别于因果性,也是现实世界中非常重要、非常普遍的现象。基于相关性假设,在商业世界存在很多这种相关性的案例,啤酒和尿布就是大家耳熟能详的案例。在零售行业有所谓的购物篮分析,这就是一种利用相关性的商业方案,可以通过数据挖掘中的关联规则挖掘来发现用户购买行为中的相关性现象,最终可以利用这些相关性来提升用户体验、创造商业价值。
五、参考文献
1. Algorithms for Association Rules
2. An Improved Apriori Algorithm For Association Rules
3. Modification of A priori Algorithm focused on confidence value to association rules
4. Mining frequent patterns without candidate generation
5. Pfp: parallel fp-growth for query recommendation
6. Mining sequential patterns by pattern-growth: the PrefixSpan approach