第10章综合案例1广电大数据分析

article/2025/11/8 7:25:53

第10章综合案例1广电大数据分析

实验目的及要求

(1)现有用户观看历史和用户信息两个广电大数据文件,将对用户数据进行大数据分析。

实验系统环境及版本

  1. Linux Ubuntu 20.04

  2. JDK1.8

  3. Hadoop3.1.0

  4. MySQL8.0.28

  5. Hive3.1.2

实验任务

  1. 基本信息查询;

  2. 单个用户观看市场Top20;

  3. 用户观看时长Top20;

  4. 电视观看数Top20;

  5. 电视观看时长Top20;

  6. 用户正常状态及数量。

实验内容及步骤

1.创建存储格式为TextFile的表text_see和text_user(用于存储原始数据)。

观看历史表text_see:

hive> create table text_see(

> phone_no string,

> duration int,

> station_name string,

> origin_time string,

> end_time string,

> res_name string,

> owner_code string,

> owner_name string,

> category_name string,

> res_type string,

> vod_title string,

> program_title string,

> day string,

> origin_time1 string,

> end_time1 string,

> wat_time int,

> data string)

> row format delimited fields terminated by ‘,’

> stored as textfile;

在这里插入图片描述

用户信息表text_user:

hive> create table text_user(

> phone_no string,

> owner_name string,

> run_name string,

> run_time string,

> sm_name string,

> owner_code string)

> row format delimited fields terminated by ‘,’

> stored as textfile;
在这里插入图片描述

创建存储格式为ORC的表orc_see和orc_user

观看历史表orc_see:

hive> create table orc_see(

> phone_no string,

> duration int,

> station_name string,

> origin_time string,

> end_time string,

> res_name string,

> owner_code string,

> owner_name string,

> category_name string,

> res_type string,

> vod_title string,

> program_title string,

> day string,

> origin_time1 string,

> end_time1 string,

> wat_time int,

> data string)

> row format delimited fields terminated by ‘,’

> stored as orc;

在这里插入图片描述

用户信息表orc_user:

hive> create table orc_user(

> phone_no string,

> owner_name string,

> run_name string,

> run_time string,

> sm_name string,

> owner_code string)

> row format delimited fields terminated by ‘,’

> stored as orc;

在这里插入图片描述

导入数据

观看历史文件存储在本地系统/opt/datas目录下,将其导入表text_see中:

hive> load data local inpath ‘/opt/datas/media3.txt’ into table text_see;

在这里插入图片描述

用户信息文件存储在本地系统/opt/datas目录下,将其导入表text_user中:

hive> load data local inpath ‘/opt/datas/userevents.txt’ into table text_user;

在这里插入图片描述

将表text_see中数据加载到表orc_see中:

hive> insert into table orc_see select * from text_see;
在这里插入图片描述

将表text_user中数据加载到表orc_user中:

hive> insert into table orc_user select * from text_user;
在这里插入图片描述

创建完成的表:

hive> show tables;

在这里插入图片描述

基本信息查询

查询orc_see的记录总数:

hive> select count( *) from orc_see;

在这里插入图片描述

查询表orc_user的记录总数:

hive> select count( *) from orc_user;

在这里插入图片描述

查看表text_see的数据大小:

hdfs dfs -du -h /user/hive/warehouse/hivedwh.db/text_see

在这里插入图片描述

查看表text_user的数据大小:

hdfs dfs -du -h /user/hive/warehouse/hivedwh.db/text_user

在这里插入图片描述

单个用户观看时长Top20

hive> select phone_no,duration from orc_see order by duration desc limit 20;

在这里插入图片描述

用户观看时长Top20

hive> select phone_no as name, sum(wat_time) as times from orc_see group by phone_no order by times desc limit 20;

在这里插入图片描述

电视观看数Top20

hive> select station_name as station,count(category_name) as num from orc_see group by station_name order by num desc limit 20;

在这里插入图片描述

电视观看时长Top20

hive> select station_name as station,sum(duration) as num from orc_see group by station_name order by num desc limit 20;

在这里插入图片描述

用户正常状态及数量

hive> select run_name,count(run_name) from orc_user group by run_name;

在这里插入图片描述


http://chatgpt.dhexx.cn/article/3K7SBx2R.shtml

相关文章

图解大数据 | 综合案例-使用Spark分析挖掘零售交易数据

作者:韩信子ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-detail/177 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 引言 …

大数据之实践案例分析

前言 公司由页游转手游,公司的数据分析需要针对手游进行设计,所以原来的那一套针对页游的数据分析框架就显得不是很合适了,一方面在于手游和页游一些业务逻辑上的不同,另外一方面是数据量级上的改变,以及渠道、区服之间…

大数据分析案例-基于朴素贝叶斯算法构建电信客户流失分析预警模型

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

Python+大数据-数据分析与处理(六)-综合案例

Python大数据-数据分析与处理(六)-综合案例 案例一:Appstore数据分析 学习目标 掌握描述性数据分析流程 能够使用pandas、seaborn进行数据分析和可视化 1.案例介绍 案例背景: 对 App 下载和评分数据分析,帮助 App 开发者获取和留存用户…

大数据挖掘分析的经典案例,主要有哪几种?

大数据挖掘分析经典案例有以下几种: 1.预测产品未来一段时间用户是否会流失,流失情况怎么样; 2.公司做了某个促销活动,预估活动效果怎么样,用户接受度如何; 3.评估用户信用度好坏; 4.对现有…

第11章综合案例2影评大数据分析

第11章综合案例2影评大数据分析 实验目的及要求 (1)现有电影、影评和用户信息3个数据文件,将对其进行大数据分析。 实验系统环境及版本 Linux Ubuntu 20.04 JDK1.8 Hadoop3.1.0 MySQL8.0.28 Hive3.1.2 实验任务 评分次数最多的10部电…

淘宝大数据分析案例

项目介绍 本次结合的是一份淘宝大数据数据,数据集的大小共177MB,数据一共有3182261份(三百多万份数据集),一般的软件是无法计算和分析的,比如Excel,MySQL,Python这些都无法较好的完…

数据分析综合案例

数据分析综合案例: 数据分析流程 什么是数据清洗? 简单来说,数据清洗就是把“脏数据”变为“干净的数据”。数据清洗虽然很繁琐,但也很重要。数据清洗流程: 数据的读写、数据的探索与描述、数据简单处理、重复值的处…

磁力搜索网站+下载神器放送2019-03-05

先介绍下背景,因为喜欢看的电影因为版权问题,不能用迅雷及百度云离线下载.今天找了好久,终于发现了一个好用的解决方案. 先介绍常用的磁力搜索网站: 搜索网 https://btsow.pw/tags https://cn.torrentkitty.tv https://www.ciliurl.com/ http://www.zhizhuc.com/ https://www.a…

几款磁力搜索引擎,找资料更方便

Bt177.info 一款强大的磁力搜索引擎网站,这款网站包含有7万多个磁力链接,提供提供网盘形式和磁力形式的储存,有很多你想要的东西。如果是音频和视频的话支持在线观看。 Bt977 磁力搜索引擎,支持网盘播放,磁力下载。 To…

搜索下载神器

前言 新闪存云app是一款功能非常强大的云盘软件,为用户提供了非常给力资源搜索功能,支持多种下载方式,让你在这里体验全网最快速的资源下载,多种格式的文件以及视频也都可以在这里进行下载并进行解析,操作十分的简单&a…

基于python的种子搜索网站,你懂得!

该项目是基于python的web类库django开发的一套web网站,给师弟做的毕业设计。本人的研究方向是一项关于搜索的研究项目。在该项目中,笔者开发了一个简单版的搜索网站,实现了对数据库数据的检索和更新。通过开发该项目,笔者学习和巩…

android下载工具 磁力,【安卓+iOS】磁力搜索+下载工具

【安卓iOS】磁力搜索下载工具 2020-03-29 19:46:20 3点赞 16收藏 2评论 1、比特舟Pro(安卓) 比特舟Pro是一款磁力搜索工具,支持BT和磁力搜索。前身是比特羊,后来改名比特知了,现在又一此改名。名字虽然变了,功能还是一样。 想搜什…

Ubuntu 能直接搜 BT 种子了

Ubuntu的Dash搜索工具允许用户搜索本地和在线资源如亚马逊和维基百科上的内容。现在,一位第三方开发者为Dash搜索工具加入了BT搜索功能,允许用户搜索海盗湾上的torrent文件。这项功能获得了 Canonical 创始人Mark Shuttleworth的支持。 Canonical表示&am…

利用Python爬虫建立自己的磁力搜索引擎

现在磁力站很多,但是搜出来的东西乱七八糟的,广告也多,我看多了觉得挺烦的,正好周末无聊,想着自己做一个,下面附上本次利用Python爬虫磁力站点的教程。 下面是我写爬虫时候主要引用的库 当然,抓取的关键词可以自己从代码里设置,比如title,文件大小之类的。 但我怎么知…

TT盒子种子搜索神器

2、软件名称:tt盒子种子搜索神器 3、软件版本:V1.5 4、软件大小:2.31MB 5、软件作者及网址:TT盒子 网站:www.tthezi.com 6、软件类别:搜索引擎 7、软件语言:简体中文 8、软件授权:免…

想做个磁力链搜索引擎 3

上一篇中,我们已经实现了对tracker的访问,从而获取到了peer对等体的ip地址以及端口号。我们这一篇要实现的是对等体之间的通讯。 在bt种子下载中,对等体就是正在下载你需要文件的另一台主机或提供下载你需要文件的主机。每一个种子一开始都是…

[搜片神器]直接从DHT网络下载BT种子的方法

转自:http://www.cnblogs.com/miao31/p/3332819.html DHT抓取程序开源地址:https://github.com/h31h31/H31DHTDEMO 数据处理程序开源地址:https://github.com/h31h31/H31DHTMgr DHT系列文章: 1.[搜片神器] 之P2P中DHT网络爬虫原理 2.[搜片神器]之DHT网络爬虫的代码实现方法…

P2P下载器-P2P种子搜索器

P2P种子搜索器(p2psearcher)是一款集种子搜索器和在线云点播于一身的实用工具,基于先进的P2P搜索技术,可在瞬间搜遍全球ED2k网络资源。p2psearcher搜到的视频资源可以直接在右侧的云点播播放页面试播预览,并且提供高品质观影效果。需要的朋友…

这才是CSDN最系统的网络安全学习路线(建议收藏)

01 什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域,都有攻与防两面…