大数据_03【大数据基础知识】

article/2025/10/2 23:05:01

大数据_03 【大数据基础知识】

    • 01 大数据概述
    • 02 什么是大数据?(Big Data)
    • 03 传统数据与大数据的对比
    • 04 大数据的特点
        • 4.1 传统数据与大数据处理服务器系统安装对比
        • 4.2 大数据下服务器系统安装
    • 05 大数据生态系统
    • 06 大数据生态系统

01 大数据概述

数据来源: 了解大数据到来之前,传统数据的通用处理模式1、企业内部管理系统 ,如员工考勤(打卡)记录。 2、客户管理系统(CRM)

数据特征: 1、数据增长速度比较缓慢,种类单一。 2、数据量为GB级别,数据量较小。

数据处理方式: 1、数据保存在数据库中。处理时以处理器为中心,应用程序到数据库中检索数据再进行计算(移 动数据到程序端)

遇到的问题: 1、数据量越来越大、数据处理的速度越来越慢。 2、数据种类越来越多,出现很多数据库无法存储的数据,如音频、照片、视频等。

02 什么是大数据?(Big Data)

是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

数据的存储单位 最小的基本单位是bit 1 Byte =8 bit 1 KB = 1,024 Bytes = 8192 bit

KB MB GB TB PB EB ZB YB BB NB DB 进率1024

03 传统数据与大数据的对比

在这里插入图片描述

04 大数据的特点

Volume(大量):  		数据量巨大,从TB到PB级别。
Velocity(高速):		数据量在持续增加(两位数的年增长率)。
Variety(多样): 		数据类型复杂,超过80%的数据是非结构化的。
Value(低密度高价值):  	低成本创造高价值。数据来自大量源,需要做相关性分析。
需要实时或者准实时的流式采集,有些应用90%写vs.10%读。
数据需要长时间存储,非热点数据也会被随机访问。

4.1 传统数据与大数据处理服务器系统安装对比

在这里插入图片描述

4.2 大数据下服务器系统安装

在这里插入图片描述

05 大数据生态系统

大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题
新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。
技术人员:有了问题,有了解决问题的技术,需要大量懂技术的人解决问题。 最佳实践:解决 问题的方法,途径有很多,寻找最好的解决方法。
商业模式:有了最好的解决办法,同行业可以复用,不同行业可以借鉴,便形成了商业模式。

新技术
HADOOPHDFS:		海量数据存储。YARN:		集群资源调度。MapReduce:	历史数据离线计算。Hive:海量数据仓库。	Hbase:		海量数据快速查询数据库。Zookeeper:	集群组件协调。Impala:		是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。Kudu:		是一个既能够支持高吞吐批处理,又能够满足低延时随机读取的综合组件Sqoop:	数据同步组件(关系型数据库与hadoop同步)。Flume :	海量数据收集。Kafka:		消息总线。
Oozie:		工作流协调。
Azkaban: 	工作流协调。
Zeppelin:	数据可视化。
Hue: 		数据可视化。
Flink:		实时计算引擎。Kylin: 	分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析。
Elasticsearch: 	是一个分布式多用户能力的全文搜索引擎。
Logstash: 		一个开源数据搜集引擎。
Kibana: 		一个开源的分析和可视化平台。SPARKSparkCore:Spark 核心组件SparkSQL:			高效数仓SQL引擎
Spark Streaming: 	实时计算引擎
Structured: 		实时计算引擎2.0
Spark MLlib:		机器学习引擎
Spark GraphX:		图计算引擎

06 大数据生态系统

在这里插入图片描述

大数据技术快的原因1、分布式存储2、分布式并行计算3、移动程序到数据端4、更前卫、更先进的实现思路5、更细分的业务场景6、更先进的硬件技术+更先进的软件技术

http://chatgpt.dhexx.cn/article/7D7C1TsT.shtml

相关文章

大数据分析入门基础知识学什么?

大数据分析入门基础知识学什么?做好数据分析要掌握多方面的知识和技能,软实力包括沟通能力、表达能力、设计能力等。学大数据分析需要掌握可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理等方面的知识。 大数据分析入门基础知识…

大数据基础复习

第一章 1.大数据的概念: 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 2.大数据的特点: (1)Volume:数据存储量大,计算量大。 (2)Value&…

大数据基础——知识汇总

什么是DIKW模型? DData,表示数据,IInformation,表示信息,KKnowledge,表示知识,WWisdom,表示智慧。DIKW模型将数据、信息、知识、智慧纳入到一种金字塔形的层次体系,每一层比下一层都赋予的一些…

OOP思想--封装和继承

本篇主要讲面向对象的封装和继承特性,另一个特性多态会在后面的文章中讲到。 目录:  面向对象编程过程 封装的实现 继承的方式 继承后对象的构造顺序 继承的种类 一、什么是面向对象编程(Object Oriented programming,OOP)思想&…

11:c# oop思想面向对象编程(by-朝夕)

目录 前言oop思想面向过程面向对象 面向对象特点:设计模式/原则设计模式六大原则:单一职责原则(Single Responsibility Principle)里氏替换原则(Liskov Substitution Principle)依赖倒置原则(De…

php oop思想

1.特点: - 封装:隐藏对象的属性和实现细节 - 继承:从一个基类得到一个或多个类的机制 - 多态:根据使用类的上下文来重新定义或改变类的性质或行为 2.访问控制符 public 全局,类内部、外部、子类都可访问protected 受…

php中的oop思想,oop_php oop思想_oop和ood

我想从一个游戏程序员的角度探讨OOP的一个问题──性能。 现时C可以说是支持OOP范式中最为常用及高性能的语言。 历史上,OOP大概是60年代出现,而C诞生于70年代末。现在的硬件和当时的有很大差异,其中最大的问题是内存墙_百度百科。 图1: 处理…

java里oop思想_(一)OOP思想详解

1.关于抽象的进步。面向对象OOP的设计思路其实是把“抽象”这种编程方法进行了新的解释说明,把具体的人或事务抽象成了“类”“对象”的形式。 面向对象的主要思想: 万物即对象 程序是对象的组合 每个对象都有自己的空间,可以容纳其他对象 每…

Java面向对象OOP思想概述

Java设计思想 OOP思想(Object Oriented Programming)类和对象接口抽象类OOP三大特性封装继承多态 OOP复用的形式 OOP思想(Object Oriented Programming) 类和对象 在面向对象中,类和对象是最基本、最重要的组成单元 类:类可以说是一个模板,…

java里oop思想_Java OOP 思想解析

因为有着一年半的iOS开发经验(OC也是一门面向对象的语言)所以在对Java的面向对象的理解上也是有着自己的理解,今天就和大家分享一下。 面向对象中最为重要的三大思想就是:继承、封装、多态。本文将以一个实例场景来分析Java中的OOP。现有一个场景&#x…

OOP思想

OOP思想 OOP思想在框架实战中的具体体现: OOP程序员遇到问题时的思考方式: –》 利用现有的方法和对象来搞定 --》 去找方法或对象来搞定 去哪找呢? –》 从父类或者父接口找 idea在OOP开发上还是提供了很多很好用的工具,可…

OOP基本思想

面向对象思想 面向对象概念:是指把所有对象封装为对象,提高代码的复用性 【复用性就是指一段代码可以重复使用】 一:面向对象四大步骤: 1:给计算机定义一个类 【一个类又两部分组合:成员变量和成员方法】 2…

Kali Linux信息收集工具栏之Dmitry tools(工具)

首先这款工具是信息收集工具里的第一位,大体作用是对IP或者web域名进行whois查询,它的用参数如下图: 首先我们需要知道整个格式是这样的 dmitry [-winsepfb] [-t 0-9] [-o%host.txt] IP或者web域名 #环境变量 (空格接参数) -t在…

白帽子黑客与网络安全工程师教你:如何使用DMitry域名查询工具技巧?

课前声明: 1、本分享仅做学习交流,请自觉遵守法律法规! 2、搜索:Kali 与编程,学习更多网络攻防干货! 3、Kali 与编程每天准时更新,敬请学习和关注! 正文部分 一、背景介绍 DMitry 工…

Kali linux-信息收集-dmitry

信息收集-dmitry DMitry(Deepmagic Information Gathering Tools 深度信息收集工具)是一个kali linux下用C语言写的工具。主要功能为端口扫描,whois主机IP和域名信息,从Netcraft.com获取主机信息,子域名搜集。 帮助: -o 保…

荆棘合成器-Plugin Alliance Dmitry Sches Thorn 1.2.2 WiN-MAC

win:VSTi, VSTi3, AAX* (*MOD.) 288M | mac:VST, VST3, AU 113M Thorn是一款软件合成器,旨在易于使用并提供出色的声音。在Thorn中,简单意味着简单明了,并同时提供高级声音控制。直观的工作流程&#xff0c…

综合扫描工具 -- dmitry

今天的云很好看,我想拍给你看,却想到我们很久不联系了,突然觉得,云也没那么好看了。。。 ---- 网易云热评 Dmitry是一款一体化的信息收集工具 一、环境:kali201201 二、用法: -o Save output to %host.txt or to …

Kali 工具系列【4】深度信息挖掘工具Dmitry使用技巧

一、Dmitry是什么? DMitry是黑客渗透流程中进行深度信息收集的利器,它是一个由C语言编写的UNIX/(GNU)Linux命令行工具,无GUI操作界面,需掌握其常用使用参数。 二、Dmitry可以用来做什么? 1、进行TCP端口扫描,收集端口…

DNS收集分析DMitry

Dmitry是一个由C语言编写的UNIX/(GNU)Linux命令行工具,它可用于收集主机相关信息,比如子域名、Email地址、系统运行时间信息。 列出帮助信息: $ dmitry –help 查看更完整的文档: $ man Dmitry 选项详解: -o filename 创建as…

渗透前戏:dmitry简介

Dmitry是一款有深度的信息挖掘机,用自己的小破网站来做个实验,实际体验真的很鸡肋,我要对这个深度信息挖掘机做一个深深的鄙视。 查询IP地址信息: dmitry -i 104.244.88.156 原来我的网站的HostName是16clouds.com的二级域名。 查…