大数据基础复习

article/2025/10/2 23:00:10

第一章

1.大数据的概念:
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

2.大数据的特点:
(1)Volume:数据存储量大,计算量大。
(2)Value:价值密度低,对未来趋势与模式可预测分析,深度复杂分析。
(3)Variety:数据来源多,数据类型多,关联性强。
(4)velocity:数据存储、传输、处理速度快。数据更新增长速度快。

3.数据中心:
计算机系统及其通信、存储、安全、监控等系统配套设备。

4.大数据的步骤:
(1)数据采集:将数据抽取到临时的文件或数据库中。
(2)数据导入、清洗:数据去重、数据归一、异常处理。
(3)数据统计、分析、挖掘:预设主题,使用各类算法计算。
(4)结果可视化

5.大数据与物联网云计算的关系:
在这里插入图片描述
6.大数据与人工智能:
(1)人工智能需要数据来建立其智能,特别是机器学习。
(2)大数据技术为人工智能提供了强大的存储能力和计算能力。
(3)人工智能是一种计算形式,允许计算机执行认知功能;大数据是一种传统计算,它不会根据结果采取行动,只是寻找结果。

7.大数据思维
(1)抽样思维(全数据模式):分析大量数据,推测状况。
(2)容错思维:大量数据产生的价值,可以弥补这些小错误。
(3)相关关系:一个数据数值的变化会影响另外的数据数值的变化。

8.Hadoop的概念
(1)一种分布式系统基础架构。
(2)主要解决海量数据的存储、分析。
(3)

9.Hadoop的特性
(1)扩容能力强:计算机集群分配任务,完成计算。
(2)低成本:廉价机器集群分发处理。
(3)高效率:数据并发
(4)可靠性:自动维护任务,失败重新部署任务。

10.HDFS是什么
一个高度容错性的分布式文件系统。流式访问模式访问应用程序的数据。
适合用于具有超大数据集的应用程序中。
提供了廉价服务器集群,和大规模分布式文件存储能力。

11.MapReduce是什么
一种编程模型,应用于大规模数据并行运算,将任务分发到各个节点上,各节点计算完结果再把结果合并。用于任务调度、负载均衡、容错处理。

12.Spark:
Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop
上存储的大数据进行计算。

13.Hbase
Hbase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要存储非结构化和半结构化的松散数据。

14.Nosql
NoSQL数据库可以支持超大规模数据存储、灵活的数据模型支持WEB2.0应用,具有强大的横向扩展能力,有效弥补传统关系型数据库的不足。

15.数据块的概念
HDFS默认一个块64MB,一个文件被分成多个块,以块作为存储单位块的大小远远大于普通文件系统,可以最小化寻址开销和定位开销。

16.HDFS采用抽象块的优势
(1)支持大规模文件储存
文件以块为单位进行存储,一个大规模文件可被分拆成若干个文件块,不同的文件块可以被分发到不同的节点上。其次,一个文件的大小不会受到单个节点的存储容量的限制,可以远远大于网络中任意节点的存储容量。
(2)简化系统设计
简化了存储管理,方便了元数据的管理。
(3)适合数据备份
每个文件块都可以冗余存储到多个节点上,大大提高了系统的容错性和可用性。

17.HDFS节点类型
在这里插入图片描述

18.HDFS存储管理
(1)数据冗余存储
保证系统的容错性和可用性。一个数据块的多个副本会被分布到不同的数据节点上。
(2)数据错误与恢复
检测数据错误并自动恢复。把这些核心文件同步复制到备份服务器,名称节点出错则备份服务器进行数据恢复。
数据节点向名称节点发送“心跳”报告自己的状态,出现故障“心跳”部分失效,宕机。
(3)数据存取策略
核心内容,影响系统读写性能。以机架为基础,数据放在不同机架上。

19.Hbase数据模型
在这里插入图片描述
20.Hbase功能组件
在这里插入图片描述
21.Master主服务器
主服务器Master主要负责表和Region的管理工作:
(1)管理用户对表的增加、删除、修改、查询等操作。
(2) 实现不同Region服务器之间的负载均衡。
(3)在Region分裂或合并后,负责重新调整Region的分布。

22.Region服务器
Region服务器是HBase中最核心的模块,负责维护分配给自己的Region,
并响应用户的读写请求。

23.Nosql四大类型
包括键值数据库、列族数据库、文档数据库和图数据库。

24.MapReduce工作流程
(1)一个大的MapReuce作业被拆分多个Map任务在多台机器上并行处理,每个Map任务运行在数据存储节点上。
(2)在所有的 Map 任务完成后 , 会生成<key,value>形式的中间结果,被分发至多个Reduce任务在多台机器上并行执行,其中具有相同key的<key,value>被发送至同一个Reduce任务。
(3)Reduce任务对中间结果进行汇总得到结果并输出至分布式文件系统。

25.YARN的部署
(1)ApplicationMaster、NodeManager组件和HDFS中的数据节点部署在一起.
(2)ResourceManager组件和HDFS中的名称节点部署在一起.
(3)数据节点与CPU、内存和网络等资源部署在一起.

26.YARN相比MapReduce1.0的优势
(1)大大减少了承担中心服务功能的ResourceManager的资源消耗.
(2)YARN适用于多种场景,且资源管理高.

27.什么是RDD
◆RDD (Resillient Distributed Dataset)是弹性分布式数据集的简称,Spark的基本计算单元,可以通过一系列算子进行操作,只有遇到Action算子的时候,代码才会真正的被执行。
在这里插入图片描述

28.流计算的概念
实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息。
基本理念: 数据的价值随时间的流逝而降低。(即事件出现立即处理而不是缓存起来再处理)

计算题

1.推荐系统算法
Item—CF算法流程
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
兴趣度的计算:
在这里插入图片描述

2.MapReduce
确定MapReduce程序的执行过程WordCount设计思路:
以行为单位分配给Map任务算数,Reduce执行汇总

✓ Map阶段:输出<单词,1>形式的中间结果
✓ Shuffle阶段:输出<key,valuelist>形式结果,形如<Hadoop,<1,1,1,1>>
✓ Reduce阶段:输出<key,value>形式结果,形如<Hadoop,4>
✓ 输入:key为行号,value为文件行数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.spark计算过程
RDD构建: 构建RDD之间的依赖关系,将RDD转换为阶段的有向无环图。
任务调度: 根据空闲计算资源情况进行任务提交,并对任务的运行状态进行监测和处理。
任务计算: 搭建任务运行环境,执行任务并返回任务结果。
Shuffle过程: 两个阶段之间有宽依赖时,需要进行Shuffle操作。
计算结果收集:从每个任务收集并汇总结果。


http://chatgpt.dhexx.cn/article/rMDYmUdL.shtml

相关文章

大数据基础——知识汇总

什么是DIKW模型&#xff1f; DData,表示数据&#xff0c;IInformation,表示信息&#xff0c;KKnowledge&#xff0c;表示知识&#xff0c;WWisdom&#xff0c;表示智慧。DIKW模型将数据、信息、知识、智慧纳入到一种金字塔形的层次体系&#xff0c;每一层比下一层都赋予的一些…

OOP思想--封装和继承

本篇主要讲面向对象的封装和继承特性&#xff0c;另一个特性多态会在后面的文章中讲到。 目录&#xff1a;  面向对象编程过程 封装的实现 继承的方式 继承后对象的构造顺序 继承的种类 一、什么是面向对象编程&#xff08;Object Oriented programming,OOP)思想&…

11:c# oop思想面向对象编程(by-朝夕)

目录 前言oop思想面向过程面向对象 面向对象特点&#xff1a;设计模式/原则设计模式六大原则&#xff1a;单一职责原则&#xff08;Single Responsibility Principle&#xff09;里氏替换原则&#xff08;Liskov Substitution Principle&#xff09;依赖倒置原则&#xff08;De…

php oop思想

1.特点&#xff1a; - 封装&#xff1a;隐藏对象的属性和实现细节 - 继承&#xff1a;从一个基类得到一个或多个类的机制 - 多态&#xff1a;根据使用类的上下文来重新定义或改变类的性质或行为 2.访问控制符 public 全局&#xff0c;类内部、外部、子类都可访问protected 受…

php中的oop思想,oop_php oop思想_oop和ood

我想从一个游戏程序员的角度探讨OOP的一个问题──性能。 现时C可以说是支持OOP范式中最为常用及高性能的语言。 历史上&#xff0c;OOP大概是60年代出现&#xff0c;而C诞生于70年代末。现在的硬件和当时的有很大差异&#xff0c;其中最大的问题是内存墙_百度百科。 图1: 处理…

java里oop思想_(一)OOP思想详解

1.关于抽象的进步。面向对象OOP的设计思路其实是把“抽象”这种编程方法进行了新的解释说明&#xff0c;把具体的人或事务抽象成了“类”“对象”的形式。 面向对象的主要思想&#xff1a; 万物即对象 程序是对象的组合 每个对象都有自己的空间&#xff0c;可以容纳其他对象 每…

Java面向对象OOP思想概述

Java设计思想 OOP思想(Object Oriented Programming)类和对象接口抽象类OOP三大特性封装继承多态 OOP复用的形式 OOP思想(Object Oriented Programming) 类和对象 在面向对象中&#xff0c;类和对象是最基本、最重要的组成单元 类&#xff1a;类可以说是一个模板&#xff0c;…

java里oop思想_Java OOP 思想解析

因为有着一年半的iOS开发经验(OC也是一门面向对象的语言)所以在对Java的面向对象的理解上也是有着自己的理解&#xff0c;今天就和大家分享一下。 面向对象中最为重要的三大思想就是&#xff1a;继承、封装、多态。本文将以一个实例场景来分析Java中的OOP。现有一个场景&#x…

OOP思想

OOP思想 OOP思想在框架实战中的具体体现&#xff1a; OOP程序员遇到问题时的思考方式&#xff1a; –》 利用现有的方法和对象来搞定 --》 去找方法或对象来搞定 去哪找呢&#xff1f; –》 从父类或者父接口找 idea在OOP开发上还是提供了很多很好用的工具&#xff0c;可…

OOP基本思想

面向对象思想 面向对象概念&#xff1a;是指把所有对象封装为对象&#xff0c;提高代码的复用性 【复用性就是指一段代码可以重复使用】 一&#xff1a;面向对象四大步骤&#xff1a; 1&#xff1a;给计算机定义一个类 【一个类又两部分组合&#xff1a;成员变量和成员方法】 2…

Kali Linux信息收集工具栏之Dmitry tools(工具)

首先这款工具是信息收集工具里的第一位&#xff0c;大体作用是对IP或者web域名进行whois查询&#xff0c;它的用参数如下图&#xff1a; 首先我们需要知道整个格式是这样的 dmitry [-winsepfb] [-t 0-9] [-o&#xff05;host.txt] IP或者web域名 #环境变量 (空格接参数) -t在…

白帽子黑客与网络安全工程师教你:如何使用DMitry域名查询工具技巧?

课前声明&#xff1a; 1、本分享仅做学习交流&#xff0c;请自觉遵守法律法规&#xff01; 2、搜索&#xff1a;Kali 与编程&#xff0c;学习更多网络攻防干货&#xff01; 3、Kali 与编程每天准时更新&#xff0c;敬请学习和关注&#xff01; 正文部分 一、背景介绍 DMitry 工…

Kali linux-信息收集-dmitry

信息收集-dmitry DMitry(Deepmagic Information Gathering Tools 深度信息收集工具)是一个kali linux下用C语言写的工具。主要功能为端口扫描&#xff0c;whois主机IP和域名信息&#xff0c;从Netcraft.com获取主机信息&#xff0c;子域名搜集。 帮助&#xff1a; -o 保…

荆棘合成器-Plugin Alliance Dmitry Sches Thorn 1.2.2 WiN-MAC

win&#xff1a;VSTi, VSTi3, AAX* (*MOD.) 288M &#xff5c; mac&#xff1a;VST, VST3, AU 113M Thorn是一款软件合成器&#xff0c;旨在易于使用并提供出色的声音。在Thorn中&#xff0c;简单意味着简单明了&#xff0c;并同时提供高级声音控制。直观的工作流程&#xff0c…

综合扫描工具 -- dmitry

今天的云很好看&#xff0c;我想拍给你看&#xff0c;却想到我们很久不联系了&#xff0c;突然觉得&#xff0c;云也没那么好看了。。。 ---- 网易云热评 Dmitry是一款一体化的信息收集工具 一、环境&#xff1a;kali201201 二、用法: -o Save output to %host.txt or to …

Kali 工具系列【4】深度信息挖掘工具Dmitry使用技巧

一、Dmitry是什么&#xff1f; DMitry是黑客渗透流程中进行深度信息收集的利器,它是一个由C语言编写的UNIX/(GNU)Linux命令行工具&#xff0c;无GUI操作界面&#xff0c;需掌握其常用使用参数。 二、Dmitry可以用来做什么&#xff1f; 1、进行TCP端口扫描&#xff0c;收集端口…

DNS收集分析DMitry

Dmitry是一个由C语言编写的UNIX/(GNU)Linux命令行工具&#xff0c;它可用于收集主机相关信息&#xff0c;比如子域名、Email地址、系统运行时间信息。 列出帮助信息&#xff1a; $ dmitry –help 查看更完整的文档: $ man Dmitry 选项详解&#xff1a; -o filename 创建as…

渗透前戏:dmitry简介

Dmitry是一款有深度的信息挖掘机&#xff0c;用自己的小破网站来做个实验&#xff0c;实际体验真的很鸡肋&#xff0c;我要对这个深度信息挖掘机做一个深深的鄙视。 查询IP地址信息&#xff1a; dmitry -i 104.244.88.156 原来我的网站的HostName是16clouds.com的二级域名。 查…

域名查询工具DMitry

DMitry工具是用来查询IP或域名WHOIS信息的。WHIOS是用来查询域名是否已经被注册及已经注册域名的详情大的数据库&#xff08;如域名所有人和域名注册商&#xff09;。使用该工具可以查询到域名的注册商和过期时间等。 简单使用 dmitry [-winsepfb] [-t 0-9] [-o %host.txt] h…

【kali-信息收集】(1.3)探测网络范围:DMitry(域名查询工具)、Scapy(跟踪路由工具)

目录 一、简介 1.1、概述&#xff1a; 二、工具 2.1、域名查询工具DMitry 简介&#xff1a; 命令&#xff1a; 使用&#xff1a; 分析&#xff1a; 命令&#xff1a; 2.2、跟踪路由工具Scapy 简介&#xff1a; 命令&#xff1a; 基础&#xff1a; ARP().display()…