大数据基础知识介绍

article/2025/10/2 22:52:16

大数据介绍

  • 大数据介绍
    • 什么是大数据
    • 大数据特点
    • 大数据能做什么
  • 大数据项目流程介绍
  • 大数据基础知识
    • 什么是服务器?
    • 服务器类型
      • 按应用层次划分
      • 按用途划分
      • 按机箱结构划分
    • 存储磁盘(硬盘)
      • 机械硬盘
      • 固态硬盘(SSD)
      • 混合硬盘
      • 机械硬盘与固态硬盘优缺点对比
    • 什么是RAID
      • RAID特点
        • 1.大容量
        • 2.高性能
        • 3.可靠性
        • 4.可管理性
      • RAID种类
        • RAID0
        • RAID1
        • RAID5
    • 什么是集群?
    • 什么是计算机网络?
    • 什么是交换机?
    • 什么是局域网?
    • 什么是网络拓扑?
    • 以太网络
    • InfiniBand网络
    • 什么是机架?
    • IDC数据中心

大数据介绍

什么是大数据

在这里插入图片描述

大数据特点

在这里插入图片描述

大数据能做什么

在这里插入图片描述

大数据项目流程介绍

  1. 数据生产
  2. 数据采集
  3. 数据存储
  4. 需求分析
  5. 数据预处理
  6. 数据计算
  7. 结果数据存储
  8. 结果数据展现

大数据基础知识

什么是服务器?

在这里插入图片描述

服务器类型

按应用层次划分

入门级服务器、工作组级服务器、部门级服务器和企业级服务器四类。

按用途划分

通用型服务器、专用型服务器两类。

按机箱结构划分

塔式服务器
刀片式服务器
机架式服务器(1U、 2U、 4U) 1U=1.75英寸=4.445厘米(cm)
机柜式服务器

存储磁盘(硬盘)

硬盘有机械硬盘(HDD)、固态硬盘(SSD)和固态混合硬盘(SSHD)之分。

机械硬盘

机械硬盘即是传统普通硬盘,主要由:盘片,磁头,盘片转轴及控制电机,磁头控制器,数据转换器,接口,缓存等几个部分组成。

固态硬盘(SSD)

固态硬盘是用固态电子存储芯片阵列而制成的硬盘,采用闪存颗粒来存储,SSD由控制单元和存储单元(FLASH芯片、DRAM芯片)组成。固态硬盘在接口的规范和定义、功能及使用方法上与普通硬盘的完全相同,在产品外形和尺寸上也完全与普通硬盘一致。

混合硬盘

混合硬盘是一块基于传统机械硬盘诞生出来的新硬盘,除了机械硬盘必备的碟片、马达、磁头等等,还内置了NAND闪存颗粒,这颗颗粒将用户经常访问的数据进行储存,可以达到如SSD(就是固态硬盘)效果的读取性能 。

机械硬盘与固态硬盘优缺点对比

  1. 防震抗摔性:机械硬盘都是磁碟型的,数据储存在磁碟扇区里。而固态硬盘是使用闪存颗粒(即内存)制作而成,所以SSD固态硬盘内部不存在任何机械部件,在发生碰撞和震荡时数据丢失的可能性降到最小。相较机械硬盘,固硬占有绝对优势。
  2. 数据存储速度:从PConline评测室的评测数据来看,固态硬盘相对机械硬盘性能提升2倍多。
  3. 功耗:固态硬盘的功耗上也要低于机械硬盘。
  4. 重量:固态硬盘在重量方面更轻,与常规1.8英寸硬盘相比,重量轻20-30克。
  5. 价格:截至目前(2018/11/20),品牌的128Gb 固态硬盘为150元左右。而1Tb 的机械硬盘价格才280左右。固态硬盘比起机械硬盘价格较为昂贵,性价比较低。
  6. 使用寿命:机械硬盘寿命长,固态硬盘寿命短。

什么是RAID

RAID ( Redundant Array of Independent Disks )即独立磁盘冗余阵列,通常简称为磁盘阵列。简单地说, RAID 是由多个独立的高性能磁盘驱动器组成的磁盘子系统,从而提供比单个磁盘更高的存储性能和数据冗余的技术。RAID 是一类多磁盘管理技术,其向主机环境提供了成本适中、数据可靠性高的高性能存储。

RAID特点

1.大容量

它扩大了磁盘的容量,由多个磁盘组成的 RAID 系统具有海量的存储空间。现在单个磁盘的容量就可以到 10TB 以上,这样 RAID 的存储容量就可以达到 PB 级。

2.高性能

RAID 的高性能受益于数据条带化技术。单个磁盘的 I/O 性能受到接口、带宽等计算机技术的限制,性能往往很有限,容易成为系统性能的瓶颈。通过数据条带化, RAID 将数据 I/O 分散到各个成员磁盘上,从而获得比单个磁盘成倍增长的聚合 I/O 性能。

3.可靠性

可用性和可靠性是 RAID 的另一个重要特征。理论上由多个磁盘组成的 RAID 系统在可靠性方面应该比单个磁盘要差。这里有个隐含假定:单个磁盘故障将导致整个 RAID 不可用。 RAID 采用镜像和数据校验等数据冗余技术,打破了这个假定。 镜像是最为原始的冗余技术,把某组磁盘驱动器上的数据完全复制到另一组磁盘驱动器上,保证总有数据副本可用。

4.可管理性

RAID 是一种虚拟化技术,它对多个物理磁盘驱动器虚拟成一个大容量的逻辑驱动器。对于外部主机系统来说, RAID 是一个单一的、快速可靠的大容量磁盘驱动器。这样,用户就可以在这个虚拟驱动器上来组织和存储应用系统数据。 从用户应用角度看,可使存储系统简单易用,管理也很便利。

RAID种类

RAID(0-7)、RAID00、RAID10、RAID01、RAID100、RAID30、RAID50、RAID60、
常用的RAID 等级有 RAID0 、 RAID1 、 RAID10 、 RAID01 和 RAID5 。

RAID0

RAID0 是一种简单的、无数据校验的数据条带化技术。实际上不是一种真正的 RAID ,因为它并不提供任何形式的冗余策略。 RAID0 将所在磁盘条带化后组成大容量的存储空间,将数据分散存储在所有磁盘中,以独立访问方式实现多块磁盘的并读访问。由于可以并发执行 I/O 操作,总线带宽得到充分利用。再加上不需要进行数据校验,RAID0 的性能在所有 RAID 等级中是最高的。
  RAID0 具有低成本、高读写性能、 100% 的高存储空间利用率等优点,但是它不提供数据冗余保护,一旦数据损坏,将无法恢复。 因此, RAID0 一般适用于对性能要求严格但对数据安全性和可靠性不高的应用,如视频、音频存储、临时数据缓存空间等。

RAID1

RAID1 称为镜像,它将数据完全一致地分别写到工作磁盘和镜像 磁盘,它的磁盘空间利用率为 50% 。 RAID1 在数据写入时,响应时间会有所影响,但是读数据的时候没有影响。 RAID1 提供了最佳的数据保护,一旦工作磁盘发生故障,系统自动从镜像磁盘读取数据,不会影响用户工作。
  RAID1 与 RAID0 刚好相反,是为了增强数据安全性使两块 磁盘数据呈现完全镜像,从而达到安全性好、技术简单、管理方便。 RAID1 拥有完全容错的能力,但实现成本高。 RAID1 应用于对顺序读写性能要求高以及对数据保护极为重视的应用,如对邮件系统的数据保护。

RAID5

RAID5是有数据校验的数据条带化技术,数据分布在阵列中的所有磁盘上,使用校验盘技术,按照块的方式来组织数据,校验数据分布在阵列中的所有磁盘上。
应该是目前最常见的 RAID 等级,对于数据和校验数据,它的写操作可以同时发生在完全不同的磁盘上。RAID5 还具备很好的扩展性。当阵列磁盘 数量增加时,并行操作量的能力也随之增长。
  RAID5 兼顾存储性能、数据安全和存储成本等各方面因素,它可以理解为 RAID0 和 RAID1 的折中方案,是目前综合性能最佳的数据保护解决方案。 RAID5 基本上可以满足大部分的存储应用需求,数据中心大多采用它作为应用数据的保护方案。

什么是集群?

集群是一组相互独立的、通过高速计算机网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。

计算机集群简称集群是一种计算机系统, 它通过一组松散集成的计算机软件/硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。

什么是计算机网络?

计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。

什么是交换机?

交换机(Switch)意为“开关”是一种用于电(光)信号转发的网络设备。它可以为接入交换机的任意两个网络节点提供独享的电信号通路。最常见的交换机是以太网交换机。其他常见的还有电话语音交换机、光纤交换机等。

什么是局域网?

局域网是指在某一区域内由多台计算机互联成的计算机组。一般是方圆几千米以内。局域网可以实现文件管理、应用软件共享、打印机共享、工作组内的日程安排、电子邮件和传真通信服务等功能。局域网是封闭型的,可以由办公室内的两台计算机组成,也可以由一个公司内的上千台计算机组成。

什么是网络拓扑?

网络拓扑(Network Topology)结构是指用传输介质互连各种设备的物理布局。指构成网络的成员间特定的物理的即真实的、或者逻辑的即虚拟的排列方式。

以太网络

优点:
是当前局域网的实时标准,配置方便,即插即用,软件支持丰富。
价格便宜,随处可得。
缺点:
无论是延迟还是吞吐量都不如一些专用网络。
用途:
是构建局域网最方便的方式。
现在被广泛用于云计算中的大规模数据处理集群中。
常见的带宽,1Gbps以及10Gbps。

InfiniBand网络

优点:
延迟极低(不到400纳秒)、很高吞吐量(高达40Gbps)。
结构先进(Offloading Engine,Zero Copy)。
缺点:
价格较贵、软件支持较少。
影响较低,与传统以太网络不兼容。
用途:
多用于高性能计算领域。
常见的带宽,10Gbps,20Gbps以及40Gbps。

什么是机架?

全称为机架式服务器,是用于固定电信柜内的接插板、外壳和设备。通常宽19英寸,高7英尺。对于IT行业,可简单理解为存放服务器的机柜。
机柜一般是冷轧钢板或合金制作的用来存放计算机和相关控制设备的物件,可以提供对存放设备的保护,屏蔽电磁干扰,有序、整齐地排列设备,方便以后维护设备。机柜一般分为服务器机柜、网络机柜、控制台机柜等。

IDC数据中心

互联网数据中心(Internet Data Center)简称IDC,就是电信部门利用已有的互联网通信线路、带宽资源,建立标准化的电信专业级机房环境,为企业、政府提供服务器托管、租用以及相关增值等方面的全方位服务。


http://chatgpt.dhexx.cn/article/9wHoW7FE.shtml

相关文章

大数据概论知识整理

目录 学习要求 一、数据科学的学科地位 二、统计学 1.统计学与数据科学 2.数据科学中常用的统计学知识 3.统计学与机器学习的区别与联系 4.数据科学视角下的统计学 三、机器学习 1.机器学习与数据科学 2.数据科学中常用的机器学习的知识 (1)基…

大数据基础--大数据深入了解

目录 第一部分 《大数据概述》 传统数据如何处理? 什么是大数据? 传统数据与大数据的对比 大数据的特点? 大数据前/后服务器系统安装部署区别是什么?。 大数据生态系统以及技术组件介绍 大数据技术为什么快? 什么是分…

大数据是什么?学大数据要掌握的基础是?(简单的介绍)

一、学习大数据需要的基础 javaSE,EE(SSM) 90%的大数据框架都是java写的 如:MongoDB--最受欢迎的,跨平台的,面向文档的数据库。 Hadoop--用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分…

大数据基础知识(下)

大数据基础知识:技巧与概念 大数据伦理匿名方面的挑战保密性方面的挑战 大数据的来源和结构人类生成的数据机器生成的数据结构化数据非结构化数据 存储大数据分布式存储与云云计算:IaaS、PaaS、SaaS 和 DaaS Hadoop 简介准备大数据进行分析数据质量方面的…

大数据基础知识1

内容概要 1)什么是服务器? 2)服务器类型 3)什么是RAID? 4)RAIO特点 5)什么是集群? 6)什么是网络? 7)什么是交换机、局域网? 8)什么是网络拓扑、机架? 9)IDC数据中心 (1)什么是服务器? 服务器…

大数据_03【大数据基础知识】

大数据_03 【大数据基础知识】 01 大数据概述02 什么是大数据?(Big Data)03 传统数据与大数据的对比04 大数据的特点4.1 传统数据与大数据处理服务器系统安装对比4.2 大数据下服务器系统安装 05 大数据生态系统06 大数据生态系统 01 大数据概…

大数据分析入门基础知识学什么?

大数据分析入门基础知识学什么?做好数据分析要掌握多方面的知识和技能,软实力包括沟通能力、表达能力、设计能力等。学大数据分析需要掌握可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理等方面的知识。 大数据分析入门基础知识…

大数据基础复习

第一章 1.大数据的概念: 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 2.大数据的特点: (1)Volume:数据存储量大,计算量大。 (2)Value&…

大数据基础——知识汇总

什么是DIKW模型? DData,表示数据,IInformation,表示信息,KKnowledge,表示知识,WWisdom,表示智慧。DIKW模型将数据、信息、知识、智慧纳入到一种金字塔形的层次体系,每一层比下一层都赋予的一些…

OOP思想--封装和继承

本篇主要讲面向对象的封装和继承特性,另一个特性多态会在后面的文章中讲到。 目录:  面向对象编程过程 封装的实现 继承的方式 继承后对象的构造顺序 继承的种类 一、什么是面向对象编程(Object Oriented programming,OOP)思想&…

11:c# oop思想面向对象编程(by-朝夕)

目录 前言oop思想面向过程面向对象 面向对象特点:设计模式/原则设计模式六大原则:单一职责原则(Single Responsibility Principle)里氏替换原则(Liskov Substitution Principle)依赖倒置原则(De…

php oop思想

1.特点: - 封装:隐藏对象的属性和实现细节 - 继承:从一个基类得到一个或多个类的机制 - 多态:根据使用类的上下文来重新定义或改变类的性质或行为 2.访问控制符 public 全局,类内部、外部、子类都可访问protected 受…

php中的oop思想,oop_php oop思想_oop和ood

我想从一个游戏程序员的角度探讨OOP的一个问题──性能。 现时C可以说是支持OOP范式中最为常用及高性能的语言。 历史上,OOP大概是60年代出现,而C诞生于70年代末。现在的硬件和当时的有很大差异,其中最大的问题是内存墙_百度百科。 图1: 处理…

java里oop思想_(一)OOP思想详解

1.关于抽象的进步。面向对象OOP的设计思路其实是把“抽象”这种编程方法进行了新的解释说明,把具体的人或事务抽象成了“类”“对象”的形式。 面向对象的主要思想: 万物即对象 程序是对象的组合 每个对象都有自己的空间,可以容纳其他对象 每…

Java面向对象OOP思想概述

Java设计思想 OOP思想(Object Oriented Programming)类和对象接口抽象类OOP三大特性封装继承多态 OOP复用的形式 OOP思想(Object Oriented Programming) 类和对象 在面向对象中,类和对象是最基本、最重要的组成单元 类:类可以说是一个模板,…

java里oop思想_Java OOP 思想解析

因为有着一年半的iOS开发经验(OC也是一门面向对象的语言)所以在对Java的面向对象的理解上也是有着自己的理解,今天就和大家分享一下。 面向对象中最为重要的三大思想就是:继承、封装、多态。本文将以一个实例场景来分析Java中的OOP。现有一个场景&#x…

OOP思想

OOP思想 OOP思想在框架实战中的具体体现: OOP程序员遇到问题时的思考方式: –》 利用现有的方法和对象来搞定 --》 去找方法或对象来搞定 去哪找呢? –》 从父类或者父接口找 idea在OOP开发上还是提供了很多很好用的工具,可…

OOP基本思想

面向对象思想 面向对象概念:是指把所有对象封装为对象,提高代码的复用性 【复用性就是指一段代码可以重复使用】 一:面向对象四大步骤: 1:给计算机定义一个类 【一个类又两部分组合:成员变量和成员方法】 2…

Kali Linux信息收集工具栏之Dmitry tools(工具)

首先这款工具是信息收集工具里的第一位,大体作用是对IP或者web域名进行whois查询,它的用参数如下图: 首先我们需要知道整个格式是这样的 dmitry [-winsepfb] [-t 0-9] [-o%host.txt] IP或者web域名 #环境变量 (空格接参数) -t在…

白帽子黑客与网络安全工程师教你:如何使用DMitry域名查询工具技巧?

课前声明: 1、本分享仅做学习交流,请自觉遵守法律法规! 2、搜索:Kali 与编程,学习更多网络攻防干货! 3、Kali 与编程每天准时更新,敬请学习和关注! 正文部分 一、背景介绍 DMitry 工…