游戏运营技术之----运用箱线图分析PCU和DAU(一)

article/2025/8/29 11:47:11

在我们对PCU和DAU进行分析时,经常采用的方法是做一条曲线比较一下前后两个时期的数据走势,发现问题,进行分析,但是实际过程中,这样的做法远远不能挖掘这两个数据指标更多的内涵和知识。针对本文已经在论坛(http://www.dmacn.com/viewthread.php?tid=11&extra=)开设讨论区,欢迎各位讨论和提出建议。

今天说说如何运用箱线图进行这两个指标的分析,在此作为一个例子与大家分享,设计的文献和参考资料会给各位列出来,以便于各位查阅。

什么是箱线图?

维基百科给出的定义

(http://zh.wikipedia.org/wiki/%E7%AE%B1%E5%BD%A2%E5%9C%96):

箱形图(英文:Box-plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、下四分位数及上四分位数。

箱线图什么样?

箱线图的常用统计量

百度百科(http://baike.baidu.com/view/1326550.htm)

绘制须使用常用的统计量,最适宜提供有关数据的位置和分散的参考,尤其在不同的母体数据时更可表现其差异。

常用的统计量 :

平均数

中位数

百分位数

四分位数

全距

四分位距

变异数和标准差

从箱线图上我们会看到什么信息?

如下图所示为一个示意箱线图(维基百科),从这个图上我们可以读出一下的信息:

这组数据显示出:

最小值(min)=0.5。

下四分位数(Q1)=7。

中位数(Med)=8.5。(一段数据从小到大排序后,处于中间位置的数)

上四分位数(Q3)=9。

最大值(max)=10。

平均值=8。

四分位间距(interquartile range)=Q3 − Q1=2 (即ΔQ)

在区间 Q3+2ΔQ, Q1-2ΔQ 之外的值被视为应忽略(farout)。

注:四分位数就是将数据从小到大排序后,处于25%与75%位置的数为下上四分位数。

farout: 在图上不予显示,仅标注一个符号∇。

最大值区间: Q3+1.5ΔQ

最小值区间: Q1-1.5ΔQ

上下四分位数的波动范围:上下四分位数+1.5四分位差

最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.

outlier = 3.5

 

为什么我们要用箱线图来分析PCU和DAU?

箱线图分析是一种很常用的分析方法,但是由于作图比较麻烦,如果不借助SPSS等专业统计分析软件作图,会不太方便,箱线图用于监控数据的波动。

在游戏的运营过程中,产生的数据必然存在异常值的情况,但是这些异常值在通过曲线形式的展现后由于会受到坐标比例的迷惑,使一些原本存在异常情况的数据掩盖了,有些问题进而不能发现,如下图所示:

两条曲线表现的是同一组数据,但是曲线的状态因为比例标尺的调整导致曲线的升幅发生了变化,这样一来,就容易迷惑DMA,很多时候异常值被忽略了,因此在做曲线的同时,如果精力允许可以做做箱线图比较一下,因为箱线图非常容易的识别数据中的异常值。异常值如果持续的被我们忽略,会对于我们的分析工作带来干扰因素,同时我们还要寻找异常值出现的原因,是开服,合服,服务器事故还是其他问题。有力的把握异常值分析是发现问题进而改进的绝佳时机。刚才提到了箱线图提供一个识别异常值的标准(MBALIB给予了分析):“异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。虽然这种标准有点任意性,但它来源于经验判断,经验表明它在处理需要特别注意的数据方面表现不错。这与识别异常值的经典方法有些不同。众所周知,基于正态分布的3σ法则或z分数方法是以假定数据服从正态分布为前提的,但实际数据往往并不严格服从正态分布。它们判断异常值的标准是以计算数据批的均值和标准差为基础的,而均值和标准差的耐抗性极小,异常值本身会对它们产生较大影响,这样产生的异常值个数不会多于总数0.7%。显然,应用这种方法于非正态分布数据中判断异常值,其有效性是有限的。箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;另一方面,箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。”

(http://wiki.mbalib.com/wiki/%E7%AE%B1%E7%BA%BF%E5%9B%BE)

那么这里大家可能有一个疑问,为什么距离是1.5倍?其实正如刚才所说的,这是一种经过大量分析和经验积累起来的标准,有一定的参考意义。“统计学中离群点为超出平均数±N个标准差的范围的数值。这个数值并非随意而定,其中运用的是统计学知识。

当一组数据为对称分布时,

约有68%的数据在平均数±1个标准差的范围之内

约有95%的数据在平均数±2个标准差的范围之内

约有99%的数据在平均数±3个标准差的范围之内

当一组数据未不对称分布时,

至少有75%的数据落在平均数±2个标准差范围之内

至少有89%的数据落在平均数±3个标准差范围之内

至少有94%的数据落在平均数±4个标准差范围之内

根据以上情况可以看出,如果某数值为离群点,那么该数值确实存在异常之处。“

(运营数据监控 BY小武  http://www.docin.com/p-239532559.html)

时间所限,今天先把第一部分整理分享给各位。之后把第二部分分析过程上传。


http://chatgpt.dhexx.cn/article/FpvUToxQ.shtml

相关文章

ssm毕设项目高校学生社团管理系统n4pcu(java+VUE+Mybatis+Maven+Mysql+sprnig)

ssm毕设项目高校学生社团管理系统n4pcu(javaVUEMybatisMavenMysqlsprnig) 项目运行 环境配置: Jdk1.8 Tomcat8.5 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持…

Flink清洗日志服务SLS的数据并求ACUPCU

上文说到为什么使用Flink实时消费阿里云日志服务SLS的数据,并把阿里云上Flink消费SLS的代码粘贴到本地,做了相关修改之后成功把整个流程跑通了。但仅仅这样是不够的,从控制台上面输出的数据来看是个比较难看的字符串,可以说没多大…

pcu tps_Mac版Microsoft Office 2011重新定义您的TPS报告体验

pcu tps Office 2011 for Mac is going to be released in a couple of days, and we got our hands on the latest version already. Here’s a quick tour of some of the new features in the latest version of Office. Mac版Office 2011将在几天内发布,我们已…

网站服务器主要是pcu还是内存,PCU占用一直跑的很高的真正元凶

windows中有一个很神秘的进程SVCHOST,大多的用户对于他都很不了解。其实他是windows的服务器宿主,很多系统自带的服务器都要通过它来运行。用一个比喻的话,它相当于系统服务的马甲。但是SVCHOST有时候CPU占用会非常高,如何看透它的…

分形之谢尔宾斯基(Sierpinski)三角形

谢尔宾斯基三角形(英语:Sierpinski triangle)是一种分形,由波兰数学家谢尔宾斯基在1915年提出,它是一种典型的自相似集。也有的资料将其称之为谢尔宾斯基坟垛. 其生成过程为: 取一个实心的三角形。(多数使用等边三角形…

AutoJs学习-实现谢尔宾斯基三角

往期文章分享 点击跳转>《导航贴》- Unity手册,系统实战学习点击跳转>《导航贴》- Android手册,重温移动开发 👉关于作者 众所周知,人生是一个漫长的流程,不断克服困难,不断反思前进的过程。在这个过…

Python数据结构15:turtle模块制图,画直线,正方形,星星,递归可视化:分形树,谢尔宾斯基三角形

1. Python中的turtle模块制图 前面已经讲了递归的原理,这里用递归作图来直观的理解递归。 首先了解以下Python中用于作图的内置海龟作图系统turtle module。 Python内置,随时可用,以LOGO语言的创意为基础。 其意象为模拟海龟在沙滩上爬行而留…

关于谢尔宾斯基地毯的讲解

和谢尔宾斯基三角形一样,谢尔宾斯基地毯也是数学家谢尔宾斯基提出的一个分形图形,谢尔宾斯基地毯和谢尔宾斯基三角形基本类似,不同之处在于谢尔宾斯基地毯采用的是正方形进行分形构造,而谢尔宾斯基三角形采用的等边三角形进行分形…

基于马尔可夫链的谢尔宾斯基三角形(sierpinski)产生仿真

目录 1.算法仿真效果 2.MATLAB源码 3.算法概述 4.部分参考文献 1.算法仿真效果 matlab2022a仿真结果如下: 2.MATLAB源码 %***********

turtle库使用——谢尔宾斯基三角形

谢尔宾斯基三角形本质上是分形。所谓分形是一个几何图形,它可以分为许多部分,每个部分皆是整体的缩小版。这个三角形的建立概念如下: 1.建立一个等边三角形,这个三角形称0阶(order0)谢尔宾斯基三角形。 2…

分形之谢尔宾斯基(Sierpinski)地毯

前面讲了谢尔宾斯基三角形,和这一节的将把三角形变为正方形,即谢尔宾斯基地毯,它是由瓦茨瓦夫谢尔宾斯基于1916年提出的一种分形,是自相似集的一种。 谢尔宾斯基地毯的构造与谢尔宾斯基三角形相似,区别仅在于谢尔宾斯基地毯是以正方形而非等边三角形为基…

turtle递归作图绘制谢尔宾斯基地毯【详解】

了解谢尔宾斯基地毯 我们先从谢尔宾斯基三角形讲起: 谢尔宾斯基三角形(英语:Sierpinski triangle)是一种分形,由波兰数学家谢尔宾斯基在1915年提出。它是自相似集的例子。 以下是0到3阶的谢尔宾斯基三角形&#xff1a…

Python实验舱谢尔宾斯基地毯绘制教程

谢尔宾斯基地毯,和谢尔宾斯基三角形相似,下图就是谢尔宾斯基地毯 一,起始代码 p.width(3) p.speed(10) import turtle nint(input()) baseint(200/(3 ** n)) lengthbase * (3 ** n) p.pensize(0.1) turtle.tracer(False) p.pencolor(blue) p…

Matlab 谢尔宾斯基三角形

本文主要介绍了一种谢尔宾斯基三角形生产方法。谢尔宾斯基三角形是混沌与分形学里面的一个经典案例,能生成谢尔宾斯基三角形的方法很多,我采用的方法是取中点的方式,具体流程如下: 1.在任意三角形△ABC内或外任取一点P&#xff1…

关于谢尔宾斯基三角(Sierpinski)的讲解

谢尔宾斯基三角(Sierpinski)是一种分形,由波兰数学家谢尔宾斯基在1915年提出。它是自相似集的例子。它的豪斯多夫维是log(3)/log(2) ≈ 1.585。 * 图一:完成后的 谢尔宾斯基三角

Python递归绘制谢尔宾斯基三角形

首先,回顾递归的概念: 一个函数不停地调用它本身,我们就认为这个函数使用了递归。 先来看一个谢尔宾斯基三角形的示例: 所以首先,我们需要一个方法,它能帮我们画三角形,在这里画一个三角形&am…

谢尔宾斯基地毯的讲解

谢尔宾斯基地毯是数学家谢尔宾斯基提出的一个分形图形,谢尔宾斯基地毯和谢尔宾斯基三角形基本类似,不同之处在于谢尔宾斯基地毯采用的是正方形进行分形构造,而谢尔宾斯基三角形采用的等边三角形进行分形构造。谢尔宾斯基地毯和它本身的一部分…

Java面向对象编程:利用递归思想绘制“谢尔宾斯基地毯”和“谢尔宾斯基三角形”

1、递归:在方法中调用本方法。 2、递归调用会无限循环下去,因此方法体中必须有结束方法的条件。返回值为void时通常写为: if (条件) {return; } 下面使用递归绘制“谢尔宾斯基地毯”和“谢尔宾斯基三角形”。 谢尔宾斯基地毯。 1&#xff…

谢尔宾斯基三角形:Python+turtle

本来觉得谢尔宾斯基三角形挺难的。分析以后,其实还是挺简单的。 挺好理解,供大家一起学习 """功能:绘制谢尔宾斯基三角形环境:python3.7日期:2019/1/14 21:49作者:指尖魔法师版本&#xf…

用PYTHON画谢尔宾斯基三角形(代码可复制)

今天我们来画一个谢尔宾斯基三角形。 好我们先看原图: 这是一个等边三角形,把每一条边平均分成两份,再把这三个焦点连起来,形成四个等边三角形,中间的一个不看,紧接着再继续按着刚刚的步骤走,就可以画出来…