大数据概论知识整理

article/2025/10/2 22:50:12

目录

学习要求

一、数据科学的学科地位

二、统计学

1.统计学与数据科学

2.数据科学中常用的统计学知识 

3.统计学与机器学习的区别与联系

 4.数据科学视角下的统计学

三、机器学习

1.机器学习与数据科学

2.数据科学中常用的机器学习的知识

(1)基于实例学习

(2)概念学习

(3)决策树学习

(4)人工神经网络学习

(5)贝叶斯学习

(6)遗传算法

(7)分析学习

(8)增强学习

3.机器学习在数据科学中的应用

四。数据可视化

总结



学习要求

掌握:数据科学的学科地位

理解:统计学、机器学习、数据可视化对数据科学的主要影响

了解:数据科学的理论基础

一、数据科学的学科地位

从学科定位看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域重叠之处。

  • 数据科学与(传统)数学和统计学有区别
  • “黑客精神与技能”——大胆创新、喜欢挑战、追求完美和不断改进
  • “领域和务实知识”——不仅掌握数学与统计知识以及具备黑客精神与技能,而且还需要精通某一个特定领域的实务知识与经验
  • 数据科学:大数据背后的科学
  1. 新兴科学:是一门将“现实世 界”映射到“数据世 界”之后,在“数据 层次”上研究“现实 世界”的问题,并 根据“数据世界”的 分析结果,对“现 实世界”进行预测 、洞见、解释或 决策的新兴科学
  2. 交叉性学科:是一门以“数据”,尤其是“大数据”为 研究对象,并以 数据统计、机器 学习、数据可视 化等为理论基础 ,主要研究数据 加工与准备、数 据分析、数据管 理、数据计算、 数据产品开发等 活动的交叉性学科
  3. 独立学科:是一门以实现“从 数据到信息”、“从 数据到知识”和(  或)“从数据到智 慧”的转化为主要 研究目的,以“数 据驱动”、“数据业 务化”、“数据洞见  ”、“数据产品研发  ”和(或)“数据生 态系统的建设”为 主要研究任务的 独立学科
  4. 知识体系:是一门以“数据时 代”,尤其是“大数 据时代”面临的新 挑战、新机会、 新思维和新方法 为核心内容的,包括新的理论、 方法、模型、技 术、平台、工具 、应用和最佳实 践在内的一整套 知识体系。

二、统计学

1.统计学与数据科学

统计学是数据科学的主要基础理论之一。

2.数据科学中常用的统计学知识 

  • 从行为目的与思维方式看

         描述统计:集中趋势分析、离中趋势分析

         推断统计:采样分布、参数估计、假设检验

  • 从方法论角度

         基本分析法:回归分析、分类分析、聚类分析、关联规则分析、时间序列分析

         元分析法:加权平均法、优化方法

 

3.统计学与机器学习的区别与联系

通常认为统计学更关注的是“可解释性”,侧重“模型”;机器学习更关注“预测能力”,侧重“算法”,但统计学与机器学习并不是完全对立,反而相互融洽的趋势愈加显著

  • 从理论方法角度

       统计学的方法可以应用于机器学习,反之亦然。

  • 从统计学家(或机器学习)的角度

      很多统计学家也是计算机科学家,反之亦然

  • 主要区别

       1.统计学需要事先对处理对象(数据)的概率分布做出假定,而机器学习则不需要

       2.统计学通过各种统计指标(如置信区间)以评价统计模型的拟合优度,而机器学习通过交叉            验证验证或划分训练集和测试集的方法评价算法准确度。

 4.数据科学视角下的统计学

  • 不是随机样本,而是全体数据
  • 不是精确性,而是混杂性
  • 不是因果关系,而是相关关系

三、机器学习

1.机器学习与数据科学

机器学习思路:以现有的部分数据(训练集)为学习素材(输入),通过特定的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(目标函数)。

 

2.数据科学中常用的机器学习的知识

(1)基于实例学习

事先将训练样本存储下来,然后每当遇到一个新增查询实例时,学习系统分析新增实例与以前存储的实例之间的关系,并据此把一个目标函数赋给一个新增实例。

方法:K临近法、局部加权回归法、基于案例的推理

(2)概念学习

从有关某个布尔函数的输入输出训练严格不能中推算出该布尔函数。

方法:Find-S算法、候选消除算法

(3)决策树学习

一种逼近离散值目标函数的过程。

决策树代表一种分类的过程

  • 根节点:分类的开始
  • 叶节点:一个实例的结束
  • 中间节点:相应实例的某一属性
  • 节点之间的边:某一个属性的属性值
  • 从根节点到叶节点的每条路径:一个具体的实例,同一个路径上的所有所有属性之间是“逻辑与”的关系

方法:ID3算法

(4)人工神经网络学习

由人工神经元组成人工神经网络,神经元之间的连接方式对于选择具体学习算法具有重要影响。根据连接方式的不同,通常把人工神经网络分为无反馈的向前神经网络和相互连接型网络(反馈网络)。

方法:深度学习

(5)贝叶斯学习

以贝叶斯法则为基础,并通过概率手段进行学习的方法。

方法:朴素贝叶斯分类器

(6)遗传算法

主要研究“从候选假设空间中搜索出最佳假设”

基本原则(借鉴生物):适者生存、两性繁衍及突变

基本算子(与原则对应):选择、交叉和突变

方法:GA算法

(7)分析学习

使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关,因此这些假设能使机器学习系统比单独依靠数据进行泛化有更高的精度。

(8)增强学习

研究如何协助自治Agent(具有与环境交互能力的自治主体如机器人)的学习活动,进而达到选择最优动作的目的。

常见机器学习算法:有监督学习、无监督学习、半监督学习

3.机器学习在数据科学中的应用

1.机器学习的应用(IBM Watson)

该框架的阶段:

  • 命中列表的规范化
  • 问题分类
  • 迁移学习
  • 答案合并
  • 最优答案选择
  • 证据扩散
  • 多项答案

2.机器学习与其他技术的集成应用

  • 统计分析
  • 信息检索
  • 自然语言处理
  • 知识表达与推理
  • 人机接口

四.数据可视化

重要地位:

1.视觉是人类获得信息的主要途径

  • 视觉感知是人类大脑的最主要功能之一
  • 眼睛是感知信息能力最强的人体器官之一

2.相对于统计分析,数据可视化的优势在于:

  • 可视化处理可以洞察分析无法发现的结构和细节
  • 可视化处理结果的解读对用户知识水平的要求较低

3.可视化可以帮助人们提高理解与处理数据的效率

五.python常用库


 

总结

通过本章的学习,我对现在所学的专业有了更深刻的了解,对之后的学习之路有了大概的方向,同时也对之后要学习的课程产生了好奇。


http://chatgpt.dhexx.cn/article/oDHPtPVW.shtml

相关文章

大数据基础--大数据深入了解

目录 第一部分 《大数据概述》 传统数据如何处理? 什么是大数据? 传统数据与大数据的对比 大数据的特点? 大数据前/后服务器系统安装部署区别是什么?。 大数据生态系统以及技术组件介绍 大数据技术为什么快? 什么是分…

大数据是什么?学大数据要掌握的基础是?(简单的介绍)

一、学习大数据需要的基础 javaSE,EE(SSM) 90%的大数据框架都是java写的 如:MongoDB--最受欢迎的,跨平台的,面向文档的数据库。 Hadoop--用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分…

大数据基础知识(下)

大数据基础知识:技巧与概念 大数据伦理匿名方面的挑战保密性方面的挑战 大数据的来源和结构人类生成的数据机器生成的数据结构化数据非结构化数据 存储大数据分布式存储与云云计算:IaaS、PaaS、SaaS 和 DaaS Hadoop 简介准备大数据进行分析数据质量方面的…

大数据基础知识1

内容概要 1)什么是服务器? 2)服务器类型 3)什么是RAID? 4)RAIO特点 5)什么是集群? 6)什么是网络? 7)什么是交换机、局域网? 8)什么是网络拓扑、机架? 9)IDC数据中心 (1)什么是服务器? 服务器…

大数据_03【大数据基础知识】

大数据_03 【大数据基础知识】 01 大数据概述02 什么是大数据?(Big Data)03 传统数据与大数据的对比04 大数据的特点4.1 传统数据与大数据处理服务器系统安装对比4.2 大数据下服务器系统安装 05 大数据生态系统06 大数据生态系统 01 大数据概…

大数据分析入门基础知识学什么?

大数据分析入门基础知识学什么?做好数据分析要掌握多方面的知识和技能,软实力包括沟通能力、表达能力、设计能力等。学大数据分析需要掌握可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理等方面的知识。 大数据分析入门基础知识…

大数据基础复习

第一章 1.大数据的概念: 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 2.大数据的特点: (1)Volume:数据存储量大,计算量大。 (2)Value&…

大数据基础——知识汇总

什么是DIKW模型? DData,表示数据,IInformation,表示信息,KKnowledge,表示知识,WWisdom,表示智慧。DIKW模型将数据、信息、知识、智慧纳入到一种金字塔形的层次体系,每一层比下一层都赋予的一些…

OOP思想--封装和继承

本篇主要讲面向对象的封装和继承特性,另一个特性多态会在后面的文章中讲到。 目录:  面向对象编程过程 封装的实现 继承的方式 继承后对象的构造顺序 继承的种类 一、什么是面向对象编程(Object Oriented programming,OOP)思想&…

11:c# oop思想面向对象编程(by-朝夕)

目录 前言oop思想面向过程面向对象 面向对象特点:设计模式/原则设计模式六大原则:单一职责原则(Single Responsibility Principle)里氏替换原则(Liskov Substitution Principle)依赖倒置原则(De…

php oop思想

1.特点: - 封装:隐藏对象的属性和实现细节 - 继承:从一个基类得到一个或多个类的机制 - 多态:根据使用类的上下文来重新定义或改变类的性质或行为 2.访问控制符 public 全局,类内部、外部、子类都可访问protected 受…

php中的oop思想,oop_php oop思想_oop和ood

我想从一个游戏程序员的角度探讨OOP的一个问题──性能。 现时C可以说是支持OOP范式中最为常用及高性能的语言。 历史上,OOP大概是60年代出现,而C诞生于70年代末。现在的硬件和当时的有很大差异,其中最大的问题是内存墙_百度百科。 图1: 处理…

java里oop思想_(一)OOP思想详解

1.关于抽象的进步。面向对象OOP的设计思路其实是把“抽象”这种编程方法进行了新的解释说明,把具体的人或事务抽象成了“类”“对象”的形式。 面向对象的主要思想: 万物即对象 程序是对象的组合 每个对象都有自己的空间,可以容纳其他对象 每…

Java面向对象OOP思想概述

Java设计思想 OOP思想(Object Oriented Programming)类和对象接口抽象类OOP三大特性封装继承多态 OOP复用的形式 OOP思想(Object Oriented Programming) 类和对象 在面向对象中,类和对象是最基本、最重要的组成单元 类:类可以说是一个模板,…

java里oop思想_Java OOP 思想解析

因为有着一年半的iOS开发经验(OC也是一门面向对象的语言)所以在对Java的面向对象的理解上也是有着自己的理解,今天就和大家分享一下。 面向对象中最为重要的三大思想就是:继承、封装、多态。本文将以一个实例场景来分析Java中的OOP。现有一个场景&#x…

OOP思想

OOP思想 OOP思想在框架实战中的具体体现: OOP程序员遇到问题时的思考方式: –》 利用现有的方法和对象来搞定 --》 去找方法或对象来搞定 去哪找呢? –》 从父类或者父接口找 idea在OOP开发上还是提供了很多很好用的工具,可…

OOP基本思想

面向对象思想 面向对象概念:是指把所有对象封装为对象,提高代码的复用性 【复用性就是指一段代码可以重复使用】 一:面向对象四大步骤: 1:给计算机定义一个类 【一个类又两部分组合:成员变量和成员方法】 2…

Kali Linux信息收集工具栏之Dmitry tools(工具)

首先这款工具是信息收集工具里的第一位,大体作用是对IP或者web域名进行whois查询,它的用参数如下图: 首先我们需要知道整个格式是这样的 dmitry [-winsepfb] [-t 0-9] [-o%host.txt] IP或者web域名 #环境变量 (空格接参数) -t在…

白帽子黑客与网络安全工程师教你:如何使用DMitry域名查询工具技巧?

课前声明: 1、本分享仅做学习交流,请自觉遵守法律法规! 2、搜索:Kali 与编程,学习更多网络攻防干货! 3、Kali 与编程每天准时更新,敬请学习和关注! 正文部分 一、背景介绍 DMitry 工…

Kali linux-信息收集-dmitry

信息收集-dmitry DMitry(Deepmagic Information Gathering Tools 深度信息收集工具)是一个kali linux下用C语言写的工具。主要功能为端口扫描,whois主机IP和域名信息,从Netcraft.com获取主机信息,子域名搜集。 帮助: -o 保…