网站流量日志分析系统（一）概念

article/2025/9/21 3:17:04

网站流量日志分析系统（一）概念

网站流量日志分析系统：

点击流数据模型
点击流:是指用户持续访问浏览网站的轨迹。
点击流数据是由散点状的点击日志数据梳理所得。点击流数据在数据建模时存在俩张模型表 Pageviews 和visits
1.首先有一张：原始访问日志表 时间戳/ip地址/请求的url/referal/响应码/。。。
2.页面点击流模型的 pageviews 表 session/ip地址/时间/访问的url/停留时长/第几步
3.点击流模型 visits 表（按session聚集的页面访问信息） session/起始时间/结束时间/进入页面/离开页面/访问的页面数/ip/referal
如何进行网站流量分析：整个过程似一个金字塔
在这里插入图片描述
网站流量日志分析的最终目标是：ROI(投资回报率)
而且明确一点：流量并不是越多越好，还要看流量的质量，换句话讲就是流量可以给我们带来多少收入。

在这里插入图片描述
Bd(bd流量是指商务拓展流量)
细分：多维度 如：时间粒度/地理位置/目标页面/新老访客

对于所有的网站来说，页面可以划分为三个类别：导航页/功能页/内容页
导航页的目的是引导访问者找到信息，功能页的目的是帮助访问者完成特定
任务，内容页的目的是向访问者展示信息并帮助访问者进行决策。

导航页有：首页/列表页
功能页有：搜索页面/注册表单页面/购物车页面等
内容页有：

网站转化和漏斗分析（转化分析）
即放文件在各环节递进访问的过程中慢慢流失的现象。【访问者的流失和迷失】
指标是网站分析的基础，用来记录和衡量访问者在网站的各种行为。
一骨灰级指标：
1.ip：1天内，访问网站的不重复ip数。
2.Pageview(简称 PV)一个用户多次打开同一个网站就累加多次。通俗的讲就是页面被加载的次数。
3.Unique pageview:一天内同一访客多次访问网站只被计算 1 次。
二基础级指标：
1.访问的次数：指访问者从进入网站到离开网站记为1次，也称为会话（session),一次会话可能包含多个pv
2.网站的停留时间：访问者在网站上花费的时间。
3.页面停留时间：访问者在某个特定的页面停留的时间。
三复合级指标：
1.人均浏览页数：平均每个独立访客产生的pv。人均浏览页数=浏览次数/独立访客
2.跳出率：在一次访问中访问者进入网站后只访问了一个页面就离开的数量
3.退出率：指访问者离开网站的次数
基于以上的指标，我们就可以从不同的角度进行分析

一基础分析：pv/ip/uv
二来源分析：来源分类/ 搜索引擎/搜索词
三受访分析：受访的域名/受访的页面/受访升级榜/热点图/用户视点/访问轨迹
四访客分析：地区运营商/终端详情/新老访客/忠诚度/活跃度
五转化路径分析：

网站流量日志分析是纯粹的数据分析项目
数据处理的流程可分为一下几个步骤：数据采集/数据预处理/数据入库/数据分析/数据展现
1.数据采集：数据从无到有的过程如：web服务器打印日志/自定义采集的日志等另一方面也可以把通过使用flume等工具把数据采集到指定位置的过程叫做数据采集。
2.数据预处理：通过mapreduce程序对采集到的原始日志数据进行预处理，比如：清洗/格式整理/过滤脏数据等，并梳理成点击流模型数据。
3.数据入库：将预处理后的数据导入到hive仓库中相应的的库和表中。
4**.数据分析**：项目的核心内容，即根据需求开发etl分析语句，得出各种统计结果。
5.数据展现：将分析所得的数据结果进行可视化，一般通过图表进行展示。

系统架构：数据采集–>数据预处理–>导入hive仓库–>etl–>报表统计–>结果导出到mysql–>数据可视化

数据采集：定制开发采集程序，或使用开源框架 Flume
数据预处理：定制开发 mapreduce 程序运行于 hadoop 集群
数据仓库技术：基于 hadoop 之上的 Hive
数据导出：基于 hadoop 的 sqoop 数据导入导出工具
数据可视化：定制开发 web 程序**(echarts)**
整个过程的流程调度：hadoop 生态圈中的 azkaban 工具

流程如下：
在这里插入图片描述