大数据之数据采集

article/2025/9/20 7:14:59

本篇主要介绍目前网站数据采集的主流方式,之后篇章会介绍客户端数据采集目前主流的实现方式。

目前有很多数据采集云平台,如Google anylytics,百度统计,腾讯统计等等,还有一些平台也非常不错:

 一.友盟+,支持移动端和web端数据采集,个性化场景数据定制采集方案。官网给的一些demo可以参考来设计大数据的分析展现,例如:友盟的:

https://web.umeng.com/main.php?c=site&a=frame&siteid=1255975670#!/1493738363987/site/overview/1/1255975670/2017-05-02/2017-05-02

百度的:

https://tongji.baidu.com/web/5473605/overview/index?siteId=1942168

值得借鉴~


二。count.ly,支持web,iot,移动端数据采集,并且所有相关源码都是开放的,地址:https://github.com/Countly,可以从源代码看一下数据采集实现的思路,基本上和其他家的采集实现方案类似。


三. growingio(除了web外,主推移动端无埋点可配置数据采集)


四。cobub(代码开源,但是github上好久没更新了,貌似~~)


五.神策数据,支持web和移动端数据采集,提供多种语言的sdk。而且支持可视化埋点方案,web数据采集也支持可视化配置埋点.更多内容:https://www.sensorsdata.cn/manual/vtrack_intro.html#


六。heap,可视化配置事件(Heap并不自动采集各种行为,而且要你配置,但是它提供了一个非常方便的可视化配置功能)


七。Mouseflow,可记录所有的鼠标滑动轨迹,点击动作,表单项操作等。

还有很多很多...


对于网站采集数据的主流实现方式是通过javascript脚本引入,记录页面动作与变化,搜集数据后作为参数,通过gif图片(gif图片格式请求可以解决跨域问题)请求上报。

比如一些大型网站,可以看到他们的数据采集方式:

淘宝:

https://log.mmstat.com/1.gif?logtype=1&title=淘宝网 - 淘!我喜欢&pre=https://www.taobao.com/&cache=fda9e4a&scr=1680x1050&cna=5Hb+EOi5CB0CAd3Yh2b/NJpD&spm-cnt=a21bo.50862.0.0.jLJLtF&category=&uidaplus=&aplus&yunid=&tfujsVWMaHw7&asid=AQAAAABhqghZIZwQEwAAAABKVzXhhdT/Jw==&thw=cn&p=1&o=mac&b=firefox52&s=1680x1050&w=gecko&ism=mac&lver=7.2.6&jsver=aplus_std&isAplusInternal=Y&tag=1&stag=-1

聚划算:

https://log.mmstat.com/v.gif?logtype=1&title=【聚划算】无所不能聚&pre=https://www.taobao.com/&cache=a33321d&scr=1680x1050&cna=5Hb+EOi5CB0CAd3Yh2b/NJpD&spm-cnt=608.2291429.0.0.jlAKVM&category=&uidaplus=&at_bucketid=jhs_ju_1&aplus&&yunid=&tfujsVWMaHw7&trid=0bb44f8b14937400146176466efb6f&asid=AQAAAADuqQhZBJAqAAAAAAC8/B6w8Q5mBg==&sidx=3oCNVu6pCFl4cac9cTewHKaVaGLLd6xM&ckx=jutaobaocom|wwwtaobaocom&thw=cn&p=1&o=mac&b=firefox52&s=1680x1050&w=gecko&ism=mac&lver=7.3.4&jsver=aplus_std&isAplusInternal=Y&tag=1&stag=-1

京东:

https://mercury.jd.com/log.gif?t=www.100000&m=UA-J2011-1&pin=-&uid=1819884645&sid=1819884645|1&v=je=0$sc=24-bit$sr=1680x1050$ul=zh-cn$cs=UTF-8$dt=京东(JD.COM)-正品低价、品质保障、配送及时、轻松购物!$hn=www.jd.com$fl=24.0 r0$os=mac$br=firefox$bv=52.0$wb=1484228834$xb=1484228834$yb=1493740206$zb=1$cb=1$usc=direct$ucp=-$umd=none$uct=-$lt=0$ct=1493740205944$tad=-$pinid=-$jdv=122270672|direct|-|none|-|1493740205947$dataver=0.1&ref=&rm=1493740205948

百度:

http://hm.baidu.com/hm.gif?cc=0&ck=1&cl=24-bit&ds=1680x1050&et=0&fl=24.0&ja=0&ln=zh-cn&lo=0&nv=1&rnd=204781663&si=e9e114d958ea263de46e080563e254c4&st=3&su=https://www.baidu.com/&v=1.2.14&lv=1&ct=!!&tt=百度新闻搜索——全球最大的中文新闻平台&sn=63188


     基本实现方式都是类似的,比如google Analytics,使用的时候先需要在采集数据的页面中引入下面脚本:

<!-- Google Analytics -->

<script>

(function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){

(i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),

m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)

})(window,document,'script','https://www.google-analytics.com/analytics.js','ga');

ga('create', 'UA-XXXXX-Y', 'auto');

ga('send', 'pageview');

</script>

<!-- End Google Analytics -->

页面加载的时候会执行脚本,下载analytics.js,这个js文件中定义了数据搜集的函数和变量,用户可以自定义事件,基本通过一个ga函数不同传参即可实现,上面就初始化了ga的create和send两个动作,一个创建跟踪器对象,一个发送页面浏览的动作给服务器,send函数的实现就是发送一个gif图片请求,把搜集的参数拼接到url中。你可以定义自己的事件,详细可以参考:

https://developers.google.com/analytics/devguides/collection/analyticsjs/

另外可以看一下google analytics的js分析代码(之前版本ga.js)实现来加深了解,下载地址

http://download.csdn.net/detail/xuannxuan/5276625


个人设计的web采集数据方案:

  1. lg.js脚本引入页面中

  2. 通过gif图片请求到后端服务器

  3. 服务器记录请求参数到日志文件

  4. 日志文件实时抓取到消息队列

  5. 实时计算系统消费队列消息,完成分析整理

  6. 分析结果入ES,kibana二次开发展示

  7. ES历史数据入Hadoop



http://chatgpt.dhexx.cn/article/G4j5BTwu.shtml

相关文章

3. 业务数据采集平台概述

3. 业务数据采集平台概述 电商业务简介电商业务流程电商常识SKU和SPU平台属性和销售属性 电商业务数据电商系统表结构活动信息表&#xff08;activity_info&#xff09;活动规则表&#xff08;activity_rule&#xff09;活动商品关联表&#xff08;activity_sku&#xff09;平台…

测量数据采集分析平台

青创智通科技测量数据采集分析平台&#xff0c;改变传统纸张方式&#xff0c;快速实现生产质量管理的数字化、智能化、平台化。 产品优势&#xff1a; 1、检测智联与精益生产&#xff1a;实现产品制造过程各部位的尺寸测量、测量信息采集、实时传输及数据分析。 2、与各种智…

数据运营平台-数据采集

目录 行为数据采集 业务数据采集与转换 第三方系统API对接 用户数据关联 人工数据采集 数据输出 行为数据采集 1.埋点采集 ①跨平台打通 确定性方法识别 利用用户帐号体系中&#xff0c;可以是系统生成的 UserID&#xff0c;可以是手机号&#xff0c;也可以是邮箱&am…

大数据采集概述

文章目录 大数据采集概述1.互联网大数据与采集1.1互联网大数据来源1.社交媒体2.社交网络3.百科知识库4.新闻网站5.评论信息6.位置型信息 1.2 互联网大数据的特征1.大数据类型和语义更加丰富2.数据的规范化程度弱3.数据的流动性更大4.数据的开放性更好5.数据的来源更加丰富6.互联…

大数据项目离线数仓(全 )一(数据采集平台)

搭建用户行为数据采集平台、搭建业务数据采集平台、搭建数据仓库系统、制作可视化报表 本篇博客包括搭建用户行为数据采集平台、搭建业务数据采集平台 搭建数据仓库系统在大数据项目离线数仓&#xff08;全 &#xff09;二 制作可视化报表在大数据项目离线数仓&#xff08;全…

采集平台-大数据平台数据采集系统

随着社会的发展。人们也是越来越离不开互联网&#xff0c;今天小编就给大家盘点一下免费的采集平台&#xff0c;只需要点几下鼠标就能轻松爬取数据&#xff0c;不管是导出excel还是自动发布到网站都支持。详细参考图片一、二、三、四&#xff01; 企业人员 通过爬取动态网页数…

4. 业务数据采集平台搭建

4. 业务数据采集平台搭建 业务数据采集模块Hive安装部署业务数据同步概述数据同步策略概述数据同步策略选择数据同步工具概述 DataX 数据同步工具Maxwell 数据同步工具全量表数据同步数据通道DataX 配置文件DataX 配置文件生成脚本生成文件生成全部配置文件脚本测试生成的 Data…

奇点云数据中台技术汇(二)| DataSimba系列之数据采集平台

继上期数据中台技术汇栏目发布DataSimba——企业级一站式大数据智能服务平台&#xff0c;本期介绍DataSimba的数据采集平台。 DataSimba采集平台属于DataSimba的数据计算及服务平台的一部分&#xff0c; 负责数据的导入&#xff0c; 从而支持上层的数据处理。 DataSimba的定…

六大主流大数据采集平台架构分析

日志收集的场景 DT时代&#xff0c;数以亿万计的服务器、移动终端、网络设备每天产生海量的日志。 中心化的日志处理方案有效地解决了在完整生命周期内对日志的消费需求&#xff0c;而日志从设备采集上云是始于足下的第一步。 随着大数据越来越被重视&#xff0c;数据采集的挑战…

简单谈谈Redis中的几种java客户端以及优缺点!

一、摘要 相对于其他的分布式中间件&#xff0c;Redis 支持的客户端种类非常繁多&#xff0c;涵盖更加全面&#xff0c;除了支持比较流行的 c、c、java、C#、php、Python 等语言以外&#xff0c;还支持 Objective-C、Swift、Node.js 等等&#xff0c;以下是来自于 Redis 支持的…

Redis介绍、安装、客户端

1. Redis介绍 1.1 什么是NoSql 为了解决高并发、高可用、高可扩展&#xff0c;大数据存储等一系列问题而产生的数据库解决方案&#xff0c;就是NoSql。NoSql&#xff0c;叫非关系型数据库&#xff0c;它的全名Not only sql。它不能替代关系型数据库&#xff0c;只能作为关…

redis安装+客户端

redis安装客户端 1.安装redi2.安装redis客户端 1.安装redi 1&#xff09;资源下载地址 Redis安装包&#xff1a;https://github.com/MicrosoftArchive/redis/releases 2&#xff09; 下载&#xff0c;解压安装包到相应的文件夹&#xff0c;任一盘符都可以。 接下来对文件夹中的…

Redisson--最好用的Redis客户端--介绍

原文网址&#xff1a;Redisson--最好用的Redis客户端--介绍_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍Redisson这款最好用的Redis客户端。 官网 官网&#xff1a;Redisson: Redis Java client with features of In-Memory Data Grid git&#xff1a;https://github.co…

redis的客户端

关系型数据库存储在磁盘当中&#xff0c;非关系型数据库存储在内存中 Jedis 第一步&#xff1a;导入依赖包 <dependencies><dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>3.7.0</vers…

【Redis】客户端RedisClient

0. 目录 1. 下载2. 运行 RedisClient3.1. 链接服务器 1. 下载 官网下载&#xff1a;https://github.com/caoxinyu/RedisClient 因为我已经安装了jdk或者jre&#xff0c;所以我只用jar包版本。 我用迅雷下载&#xff0c;比较快。当然你可以用我下载好的。 百度云盘&#xff1a;…

redis:客户端管理

机制 redis提供了一些操作客户端的命令&#xff0c;比如查询所有已连接到服务端的客户端数量&#xff0c;控制客户端的连接状态&#xff08;关闭或者挂起&#xff09;等。通过客户命令我们可以轻松实现对客户端的管理、控制。 redis服务器通过监听TCP端口的方式来接收客户端连…

windows下redis可视化客户端

Redis是一个超精简的基于内存的键值对数据库(key-value)&#xff0c;一般对并发有一定要求的应用都用其储存session&#xff0c;乃至整个数据库。 redis的可视化客户端目前较流行的有三个&#xff1a;Redis Client ; Redis Desktop Manager ; Redis Studio. Redis Desktop Ma…

Redis(四) - Redis的Java客户端

文章目录 一、Redis的Java客户端二、Jedis客户端1. 快速入门&#xff08;1&#xff09;引入依赖&#xff08;2&#xff09;创建jedis对象&#xff0c;建立连接&#xff08;3&#xff09;测试&#xff0c;方法名与Redis命令一致&#xff08;4&#xff09;释放资源 2. Jedis连接池…

Redis可视化客户端汇总

因为 Redis 官方只提供了命令行版的 Redis 客户端 redis-cli&#xff0c;以至于我们在使用的时候会比较麻烦&#xff0c;通常要输入一堆命令&#xff0c;而且命令行版的客户端看起来也不够直观&#xff0c;基于以上两个原因我们需要找一个可视化的 Redis 客户端&#xff0c;下面…

redis客户端连接工具RedisDesktop安装

redis客户端连接工具RedisDesktop安装手册: RedisDesktop官方下载地址&#xff1a; https://redisdesktop.com/download 但是需要付费 这里提供一个可以免费下载的地址&#xff1a;https://pan.baidu.com/s/1ExBlD79pfypnqAeP1sXybg 下载后解压如下&#xff1a; 安装此文件&…