MapReduce 编程实例:词频统计

article/2025/10/16 15:19:14

文章目录

  • MapReduce 编程实例:词频统计
    • 一,准备数据文件
      • (1)在虚拟机上创建文本文件
      • (2)上传文件到HDFS指定目录
    • 二,使用IDEA创建Maven项目
    • 三,添加相关依赖
    • 四,创建日志属性文件
      • (1)在resources目录里创建log4j.properties文件
      • (2)log4j.properties文件添加内容
    • 五,创建词频统计映射器类
      • (1)创建net.army.mr包
      • (2)在net.army.mr包下创建WordCountMapper类
      • (3)为了更好理解Mapper类的作用,在map()函数里暂时不进行每行文本分词处理,直接利用context输出key和value
    • 六,创建词频统计驱动器类
      • (1)在net.army.mr包里创建WordCountDriver类
      • (2)注意导包
    • 七,运行词频统计驱动器类,查看结果


MapReduce 编程实例:词频统计

启动hadoop服务,输入命令:start-all.sh
在这里插入图片描述

一,准备数据文件

(1)在虚拟机上创建文本文件

在export目录下,创建wordcount目录,在里面创建words.txt文件,向words.txt输入下面内容。
在这里插入图片描述输入内容:

hello hadoop world
hello hive world
hello hbase world
hadoop hive hbase
I love hadoop and hive

(2)上传文件到HDFS指定目录

创建/wordcount/input目录,执行命令:hdfs dfs -mkdir -p /wordcount/input
在这里插入图片描述
在Hadoop WebUI界面上查看目录是否创建成功
在这里插入图片描述
将在本地/export/wordcount/目录下的words.txt文件,上传到HDFS的/wordcount/input目录,输入命令:hdfs dfs -put /export/wordcount/words.txt /wordcount/input
在这里插入图片描述
在Hadoop WebUI界面上查看words.txt文件是否上传成功
在这里插入图片描述

二,使用IDEA创建Maven项目

1.选择【Maven】,选择【jdk】版本,单击【Next】按钮
在这里插入图片描述

2.输入项目名称为:MRWordCount,单击【Finish】按钮
在这里插入图片描述3.创建成功,弹出如下界面
在这里插入图片描述

三,添加相关依赖

1.在pom.xml文件里添加hadoop和junit依赖,内容为:

<dependencies>                                   <!--hadoop客户端-->                             <dependency>                                 <groupId>org.apache.hadoop</groupId>     <artifactId>hadoop-client</artifactId>   <version>3.3.4</version>                 </dependency>                                <!--单元测试框架-->                                <dependency>                                 <groupId>junit</groupId>                 <artifactId>junit</artifactId>           <version>4.13.2</version>                </dependency>                                
</dependencies>                                                  

在这里插入图片描述
2.单击【maven】,单击那个刷新按钮,它会自动下载相关依赖
在这里插入图片描述
3.下载完成后,那个红色的感叹号会变成勾
在这里插入图片描述

注:maven的下载和配置可以参考:《在IDEA中配置Maven》

四,创建日志属性文件

(1)在resources目录里创建log4j.properties文件

1.右击resources目录,单击【new】选择【resources bundle】,弹出下图界面输入log4j,单击【ok】按钮
在这里插入图片描述2.在弹出的【Create Resource Bundle】对话框中输入:log4j,单击【OK】按钮
在这里插入图片描述

(2)log4j.properties文件添加内容

1.添加如下内容

log4j.rootLogger=INFO, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/wordcount.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

2.添加完成实例图
在这里插入图片描述

五,创建词频统计映射器类

(1)创建net.army.mr包

1.右击【java】选择【new】单击【package】
在这里插入图片描述
2.在弹出的【new package】对话框中输入net.army.mr,按下回车键
在这里插入图片描述
3.成功创建
在这里插入图片描述

(2)在net.army.mr包下创建WordCountMapper类

1.右击【net.army.mr】包,选择【new】,单击【java class】
在这里插入图片描述2.在弹出的对话框输入WordCountMapper,按下回车键
在这里插入图片描述
3.成功创建示例图如下
在这里插入图片描述

(3)为了更好理解Mapper类的作用,在map()函数里暂时不进行每行文本分词处理,直接利用context输出key和value

源码

package net.army.mr;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/*** 功能:词频统计映射器类* 作者:梁辰兴* 日期:2022年12月12日*/public class WordCountMapper extends Mapper<LongWritable, Text, LongWritable, Text> {@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {// 直接将键值对数据传到下一个阶段context.write(key, value);}
}

六,创建词频统计驱动器类

(1)在net.army.mr包里创建WordCountDriver类

1.在弹出的对话框中输入WordCountDriver
在这里插入图片描述
2.向WordCountDriver类中添加以下代码:

package net.army.mr;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.net.URI;/*** 功能:词频统计驱动器类* 作者:梁辰兴* 日期:2022年12月12日*/
public class WordCountDriver {public static void main(String[] args) throws Exception {// 创建配置对象Configuration conf = new Configuration();// 设置数据节点主机名属性conf.set("dfs.client.use.datanode.hostname", "true");// 获取作业实例Job job = Job.getInstance(conf);// 设置作业启动类job.setJarByClass(WordCountDriver.class);// 设置Mapper类job.setMapperClass(WordCountMapper.class);// 设置map任务输出键类型job.setMapOutputKeyClass(LongWritable.class);// 设置map任务输出值类型job.setMapOutputValueClass(Text.class);// 定义uri字符串String uri = "hdfs://master:9000";// 创建输入目录Path inputPath = new Path(uri + "/wordcount/input");// 创建输出目录Path outputPath = new Path(uri + "/wordcount/output");// 获取文件系统FileSystem fs =  FileSystem.get(new URI(uri), conf);// 删除输出目录(第二个参数设置是否递归)fs.delete(outputPath, true);// 给作业添加输入目录(允许多个)FileInputFormat.addInputPath(job, inputPath);// 给作业设置输出目录(只能一个)FileOutputFormat.setOutputPath(job, outputPath);// 等待作业完成job.waitForCompletion(true);// 输出统计结果System.out.println("======统计结果======");FileStatus[] fileStatuses = fs.listStatus(outputPath);for (int i = 1; i < fileStatuses.length; i++) {// 输出结果文件路径System.out.println(fileStatuses[i].getPath());// 获取文件系统数据字节输入流FSDataInputStream in = fs.open(fileStatuses[i].getPath());// 将结果文件显示在控制台IOUtils.copyBytes(in, System.out, 4096, false);}}
}

(2)注意导包

1.注意导包问题

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.net.URI;

2.不要导成org.apache.hadoop.mapred包下的FileInputFormatFileOutputFormat

七,运行词频统计驱动器类,查看结果

统计结果之前会显示大量信息,如果不想看到统计结果之前的大堆信息,可以修改log4j.properties文件,将INFO改为ERROR
在这里插入图片描述运行WordCountDriver程序,查看结果
在这里插入图片描述


http://chatgpt.dhexx.cn/article/hoh6r7PF.shtml

相关文章

mapreduce 编程思想

MapReduce源于Google一篇论文&#xff0c;它充分借鉴了分而治之的思想&#xff0c;将一个数据处理过程拆分为主要的Map(映射)与Reduce(化简)两步。用户不懂分布式计算框架的内部运行机制&#xff0c;只要能用Map和Reduce的思想描述清楚要处理的问题&#xff0c;即编写map()和re…

MapReduce编程规范及示例编写

1、Mapper类 用户自定义一个Mapper类继承Hadoop的Mapper类Mapper的输入数据是KV对的形式&#xff08;类型可以自定义&#xff09;Map阶段的业务逻辑定义在map()方法中Mapper的输出数据是KV对的形式&#xff08;类型可以自定义&#xff09; 注意&#xff1a;map()方法是对输入…

MapReduce编程快速入门

MapReduce编程规范 用户编写的程序分成三个部分&#xff1a;Mapper&#xff0c;Reducer&#xff0c;Driver(提交运行mr程序的客户端) Mapper阶段继承Mapper类 &#xff08;1&#xff09;用户自定义的Mapper要继承自己的父类 &#xff08;2&#xff09;Mapper的输入数据是KV对…

java mapreduce编程_Hadoop实验——MapReduce编程(1)

实验目的 通过实验掌握基本的MapReduce编程方法。 掌握用MapReduce解决一些常见的数据处理问题&#xff0c;包括数据去重、数据排序和数据挖掘等。 通过操作MapReduce的实验&#xff0c;模仿实验内容&#xff0c;深入理解MapReduce的过程&#xff0c;熟悉MapReduce程序的编程方…

MapReduce编程初级实践

一、实验目的 通过实验掌握基本的MapReduce编程方法&#xff1b;掌握用MapReduce解决一些常见的数据处理问题&#xff0c;包括数据去重、数据排序和数据挖掘等。 二、 实验平台 操作系统&#xff1a;ubuntu18 Hadoop版本&#xff1a;3.2.2 HBase版本&#xff1a;2.2.2 JDK版…

MapReduce编程练习

目录 编程实现按日期统计访问次数 2.编程实现按访问次数排序 获取成绩表最高分 编译jar包方法 编程实现按日期统计访问次数 (1) 定义输入/输出格式 社交网站用户的访问日期在格式上属于文本格式&#xff0c;访问次数为整型数值格式。其组成的键值对为<访问日…

云计算实验 MapReduce编程

一、实验题目 MapReduce编程 二、实验内容 本实验利用 Hadoop 提供的 Java API 进行编程进行 MapReduce 编程。 三、实验目标 掌握MapReduce编程。 理解MapReduce原理 【实验作业】简单流量统计 有如下这样的日志文件&#xff1a; 13726230503 00-FD-07-A4-72-B8:CMCC 120.19…

Hadoop实验4:MapReduce编程

目录 一. 【实验准备】 1.工作目录 2.打开eclipse并配置工作空间 二、准备工作 1. 新建项目 2. 准备测试数据 3. 添加 MapReduce 编程框架 三、Map过程 四、Reduce过程 五、执行MapReduce任务 六、实验结果 七、准备工作 1. 新建项目 2. 准备relation.dat 3. 添加…

MapReduce 编程规范 (以WordCount为例)

先介绍一下常用的数据序列化类型 在MapReduce编程中&#xff0c;需要进行数据传输&#xff0c;比如将Mapper的结果传入Reducer中进行汇总&#xff0c;媒介就是context,所以需要可以序列化的数据类型。 MapReduce编程规范 Mapper阶段、Reducer阶段&#xff0c;Driver阶段 Map…

MapReduce 编程实战

MapReduce 采用了「分而治之」的思想。在分布式计算中&#xff0c;MapReduce 框架负责处理并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题&#xff0c;把处理过程高度抽象为两个函数&#xff1a;map&#xff0c;把一个任务分解成多个任务…

实验三-MapReduce编程

前提&#xff1a;安装好Hadoop 参考文章&#xff1a; MapReduce编程实践(Hadoop3.1.3)_厦大数据库实验室博客 实验要求 基于MapReduce执行“词频统计”任务。 将提供的A&#xff0c;B&#xff0c;C文件上传到HDFS上&#xff0c;之后编写MapReduce代码并将其部署到hadoop&…

MapReduce编程模型

1.MapReduce简介 MapReduce是一个分布式运算程序的编程框架&#xff0c;核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序&#xff0c;并发运行在Hadoop集群上。 一个完整的mapreduce程序在分布式运行时有三类实例进程&#xff1a; MRAppMaste…

MapReduce编程框架

1、MapReduce思想 MapReduce思想在生活中处处可见。我们或多或少都曾接触过这种思想。MapReduce的思想核心是分而治之&#xff0c;充分利用了并行处理的优势。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想&#xff0c;而不是自己原创。 MapReduce任务过程是分为…

MapReduce编程实践

MapReduce编程实践 重要知识点&#xff1a; MapReduce是一种分布式并行编程模型,是Hadoop核心子项目之一,如果已经安装了Hadoop&#xff0c;就不需要另外安装MapReduce。主要的理论知识点包括&#xff1a;MapReduce概述、MapReduce的工作流程&#xff0c;WordCount实例分析&a…

mapreduce 编程模型

MapReduce是在总结大量应用的共同特点的基础上抽象出来的分布式计算框架&#xff0c;它适用的应用场景往往具有一个共同的特点&#xff1a;任务可被分解成相互独立的子问题。基于该特点&#xff0c;MapReduce编程模型给出了其分布式编程方法&#xff0c;共分5个步骤&#xff1a…

MapReduce编程基础

&#xff08;一&#xff09;实现词频统计的基本的MapReduce编程。 ①在/user/hadoop/input文件夹(该文件夹为空)&#xff0c;创建文件wordfile1.txt和wordfile2.txt上传到HDFS中的input文件夹下。 文件wordfile1.txt的内容如下&#xff1a; I love Spark I love Hadoop 文件wor…

(超详细)MapReduce工作原理及基础编程

MapReduce工作原理及基础编程&#xff08;代码见文章后半部分&#xff09; JunLeon——go big or go home 目录 MapReduce工作原理及基础编程&#xff08;代码见文章后半部分&#xff09; 一、MapReduce概述 1、什么是MapReduce&#xff1f; 2、WordCount案例解析MapRed…

【小白视角】大数据基础实践(五) MapReduce编程基础操作

目录 1. MapReduce 简介1.1 起源1.2 模型简介1.3 MRv1体系结构1.4 YARN1.4.1 YARN体系结构1.4.2 YARN工作流程 2. MapReduce 工作流程3. Java Api要点4. 实验过程最后 1. MapReduce 简介 1.1 起源 在函数式语言里&#xff0c;map表示对一个列表&#xff08;List&#xff09;中…

MapReduce编程

一、MapReduce编程规范 MapReduce的开发一共又八个步骤&#xff0c;其中Map阶段分为2个步骤&#xff0c;Shuffle阶段4个步骤&#xff0c;Reduce阶段分为2个步骤。 1.1 步骤流程 Map阶段2个步骤 设置InputFormat类&#xff0c;将数据切分为key-value&#xff08;k1和v1&#x…

SSL/TLS

SSL/TLS 一、SSL/TLS1.1 历史发展1.2 使用场景1.3 解决的问题1.4 工作流程 二、对称加密&#xff08;Symmetric Cryptography&#xff09;2.1 工作原理2.2 翻转攻击2.3 认证加密&#xff08;Authentication Encryption&#xff09;2.4 Diffie-Hellman2.5 KDF2.6 Diffie-Hellman…