大数据-1

article/2025/6/22 22:55:12

1、什么是大数据?特点?

大数据英语Big data),又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等;这样的用途正是大型数据集盛行的原因惊讶

“大数据”的经典定义是可以归纳为4个V

海量的数据规模(volume)得意

快速的数据流转和动态的数据体系(velocity)得意

多样的数据类型(variety)得意

巨大的数据价值(value)得意

2、数据仓库吐舌头

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

3、数据挖掘DataMine和数据分析ExtractTransformLoad的区别是什么?哭


数据分析只是在已定的假设,先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘,也就是我们数据分析师系统成长之路的“更上一楼”。
数据挖掘与数据分析两者紧密相连,具有循环递归的关系,数据分析结果需要进一步进行数据挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。
而两者的具体区别在于:
(其实数据分析的范围广,包含了数据挖掘,在这里区别主要是指统计分析)

  • 数据量上:数据分析的数据量可能并不大,而数据挖掘的数据量极大。
  • 约束上:数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,而数据挖掘不需要假设,可以自动建立方程。
  • 对象上:数据分析往往是针对数字化的数据,而数据挖掘能够采用不同类型的数据,比如声音,文本等。
  • 结果上:数据分析对结果进行解释,呈现出有效信息,数据挖掘的结果不容易解释,对信息进行价值评估,着眼于预测未来,并提出决策性建议。

数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。

举个例子说明:你揣着50元去菜市场买菜,对于琳琅满目的鸡鸭鱼猪肉以及各类蔬菜,想荤素搭配,你逐一询问价格,不断进行统计分析,能各自买到多少肉,多少菜,大概能吃多久,心里得出一组信息,这就是数据分析。而关系到你做出选择的时候就需要对这些信息进行价值评估,根据自己的偏好,营养价值,科学的搭配,用餐时间计划,最有性价比的组合等等,对这些信息进行价值化分析,最终确定一个购买方案,这就是数据挖掘。
数据分析与数据挖掘的结合最终才能落地,将数据的有用性发挥到极致。 

 

4、hadoop小飞象

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

 

5、ubuntu-java安装配置大笑

1.安装JDK
我们可以使用两种方法安装JDK,一种是在线安装。另一种是先下载JDK安装包然后再离线安装。

在线安装:执行命令$ sudo apt-get install jdk

离线安装:下载jdk-7u75-linux-x64.tar.gz,下载路径:
http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
把离线包拷入到ubuntu的当前用户hadoop的文件夹下,然后执行命令安装。
执行命令(解压修改名称)
$cd   /home/hadoop/                 
$tar  -zxvf   jdk-7u75-linux-x64.tar.gz   
$mv  jdk1.7.0_75  jdk1.7
   mv是名称修改

2.配置JDK环境变量

安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。
执行命令
$ sudo   gedit  /etc/profile
打开/etc/profile文件在文件中添加如下配置(前后均不能有空格,否则配置出错)
export   JAVA_HOME=/home/ hadoop/ jdk1.8   进入jdk文件夹,pwd目录复制粘贴到此
export   CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar  不用改
export   PATH=$PATH:$JAVA_HOME/bin     不用改
export   JRE_HOME=$JAVA_HOME/jre         不用改
    
使profile文件修改配置生效
执行命令
$ source /etc/profile   
$ java -version  
 
如果出现

java version "1.8.0_45"

Java(TM) SE Runtime Environment (build 1.8.0_45-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.45-b02, mixed mode)

则成功

6、hadoop安装配置

hadoop下载解压过程同java

修改hadoop环境变量配置
执行命令  
$sudo   gedit   /etc/profile
进入/etc/profile修改配置

export   HADOOP_HOME=/home/hadoop/hadoop-2.6.0 (进入hadoop目录pwd复制粘贴至此)

使hadoop命令配置生效
执行命令
source  /etc/profile 

编辑hadoop-env.sh文件,修改参数信息
执行命令 $cd  hadoop-2.6.0/ etc/hadoop $sudo gedit hadoop-env.sh 
export JAVA_HOME=/home/hadoop/jdk1.7

export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH(以防出错,修改java命令)这句话在/etc/profile进行PATH替换

执行hadoop version命令查看是否成功

Hadoop 2.7.1
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 15ecc87ccf4a0228f35af08fc56de536e6ce657a
Compiled by jenkins on 2015-06-29T06:04Z
Compiled with protoc 2.5.0
From source with checksum fc0a1a23fc1868e4d5ee7fa2b28a58a
This command was run using /home/alice/hadoop/hadoop2.7/share/hadoop/common/hadoop-common-2.7.1.jar


http://chatgpt.dhexx.cn/article/gR0rmKgJ.shtml

相关文章

大数据(2)

案例3 有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数,但内存限制只有2G 解决思路 下再用哈希表依次处理各个文件,统计每种数出现的次数,此时肯定不会溢出。 案例4 先分析哈希表思路:…

大数据-2

1、CAP原理&BASE思想(摘自CAP原理和BASE思想) 分布式领域CAP理论 Consistency(一致性), 数据一致更新,所有数据变动都是同步的 Availability(可用性), 好的响应性能 Partition tolerance(分区容忍性) 可靠性 定理:任何分布式…

大数据分析-第二章 大数据平台

Lecture2-大数据平台 1. Hadoop 1.1. Hadoop计算过程 1.2. Hadoop发展简史 Hadoop起源于Apache Nutch,后者是一个开源的网络搜索擎,本身也是由Lucene项目的一部分。Nutch项目开始于2002年,一个可工作的抓取工具和搜索系统很快浮出水面。200…

大数据-02

xsync放在家目录的bin下,其他脚本文件也放在该目录下 HDFS架构概述: 1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以…

大数据概述(二)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明 大数据概述 传统数据处理介绍 目标: 了解大数据到来之前,传统数据的通用处理模式 数据来源: 1、企业内部管理系统 ,如员工考勤(打卡)记录。 2、客户管理系统(CRM) 数据…

大数据2--hive--hive介绍

第一章 Hive介绍 1.1hive概述 1.1.1 hive的简介 HIve是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQK查询功能。其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储&…

【大数据实验2】hadoop配置、测试和实例

hadoop配置、测试和实例 0 环境1 配置网络2 卸载和安装JDK4 配置hadoop4.1 前提4.2 修改配置文件4.3 配置环境4.4 初始化HDFS4.5 启动hadoop4.6 登录 5 测试hadoop6 hadoop实例:统计单词频数6.1 编程实现6.1.1 安装eclipse6.1.2 JAVA编程6.1.3 上传文件6.1.4 运行程…

大数据1

cd sysconfig(目录名) 进目录 ll(listlist) 查看所有的目录 cat 看目录里的内容打开文件 ~当前目录的用户主体目录 cd / 根路径 pwd 当前路径 vi 修改文件 敲I 才可以编辑 然后更改BOOTPROTO"STATIC" IPADDRIP地址19…

大数据2 Hadoop

Hadoop是Apache软件基金会下的顶级开源项目,用以提供: • 分布式数据存储 • 分布式数据计算 • 分布式资源调度 为一体的整体解决方案。 Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。 个人或企…

数分-理论-大数据2-Hadoop

数分-理论-大数据2-Hadoop (数据分析系列) 文章目录 数分-理论-大数据2-Hadoop1知识点2具体内容2.1发展2.2简介2.3项目架构2.4安装应用 参考 1知识点 发展简介项目架构安装应用 2具体内容 2.1发展 Lucene:文本搜索的函数库,全文检索引擎Nutch&…

大数据2

机器学习和数据挖掘的区别 数据挖掘是一个比较大的概念,由许多学科综合而成,其包括机器学习、统计学习、数据库、领域知识及模式识别等领域。数据挖掘与机器学习可以看成是一种相交关系,两者都是依靠规律分析来预测数据趋势的,但不…

大数据行业部署实战2:环境大数据统计

实验二、环境大数据(必须基于实验一验证通过的环境) 一、实验目的二、实验要求三、实验原理四、实验步骤1、 分析数据文件2、 将数据文件上传至HDFS3 、编写月平均气温统计程序4 、查看月平均气温统计结果5、 编写每日空气质量统计程序6、 查看每日空气…

大数据(2)--Hadoop

目录标题 1.初识大数据1.1 大数据相关技术1.2 日志流量分析系统1.2.1 项目设计1.2.2 日志的捕获1.2.3 离线分析1.2.4 实时分析 1.3 系统搭建 2.Hadoop2.1 Hadoop概述2.1.1 历史2.1.2 作用 2.2 Hadoop的安装2.2.1 Hadoop版本介绍2.2.2 Hadoop 的安装有三种方式2.2.3 Hadoop伪分布…

《大数据时代》书评及书摘

三天的零碎时间把这本书读完了,内容本身其实很简单,也谈不上特别精彩,五分制的话我只能打三分。 我的理解,数据一生应该是包含了三个阶段:收集,分析,最后是预测。我们总能根据现有的数据&#x…

Python 与SQL sever数据库 图形化智能停车场管理系统

这个是我的一次课程设计,写了236行代码,都是最简单的函数和图形化界面。特别简单。首先你应该确保你的SQL数据库可以在Pycham中连接成功。不会SQL连接的的可以去其他博客写看一看。在Pycham中需要安装 Tkinter win32com.client 第三方库。 序言界面截…

asp毕业设计——基于asp+sqlserver的WEB车辆管理系统设计与实现(毕业论文+程序源码)——车辆管理系统

基于aspsqlserver的WEB车辆管理系统设计与实现(毕业论文程序源码) 大家好,今天给大家介绍基于aspsqlserver的WEB车辆管理系统设计与实现,文章末尾附有本毕业设计的论文和源码下载地址哦。需要下载开题报告PPT模板及论文答辩PPT模…

基于Java+控制台实现车辆信息管理系统

基于Java控制台实现车辆信息管理系统 一、系统介绍二、功能展示1.主要功能2.查看所有车辆信息3.车辆信息添加4.车辆信息查询5.车辆信息删除 三、系统实现1.car.java 四、其它1.其他系统实现 五、源码下载 一、系统介绍 该系统实现了简单的增删查改、采用面对对象(O…

qt 汽车管理系统

界面设计 运行后界面 数据库表: connection.h文件 #ifndef CONNECTION_H #define CONNECTION_H #include<Qtsql> #include<QDebug> #include<qdom.h> #include<QDebug> #include <QSqlQuery> static bool createConnection() { // "O…

计算机毕业设计-基于SSM的汽车维修管理系统

项目背景 随着计算机技术的高速发展&#xff0c;现代计算机系统已经从以计算为中心向以信息化处理为中心的方向发展。而汽车维修&#xff0c;不仅需要在硬件上为现代社会的人们提供一个汽车维修的平台&#xff0c;获取汽车知识的环境&#xff0c;更要在软件上为车辆提供汽车维…