idea构建spark开发环境(基于maven)

article/2025/10/9 0:56:12

目前Intellij IDEA对scala支持的比较好,本文使用idea构建spark开发环境。

1.准备工作

jdk版本,scala sdk环境(我的是jdk1.8,scala 2.1)

scala官网下载地址:http://www.scala-lang.org/download/ 

2.Intellij IDEA 
下载地址https://www.jetbrains.com/idea/download/#section=windows

3.idea安装scala插件

scala插件离线下载地址:https://plugins.jetbrains.com/plugin/1347-scala 

到这里,idea的scala插件环境已经OK了。

4.idea通过maven搭建spark环境

新建maven工程

填写GroupId和ArtifactId

第三步很重要,首先是你的Intellij IDEA里有Maven,一般的新版本都会自带maven,而且maven的目录在IDEA安装路径下plugins下就能找到,然后再Maven home directory地址中填写maven相对应的路径,然后完成即可。

 

接下来在pom.xml文件中加入spark环境所需要的一些依赖包。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.spark_study</groupId><artifactId>spark_study</artifactId><version>1.0-SNAPSHOT</version><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><spark.version>2.1.0</spark.version><scala.version>2.11</scala.version><hadoop.version>2.6.0</hadoop.version></properties><dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-hive_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>2.6.0</version></dependency><!--<dependency>                     //报错,所以先注释了<groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka_${scala.version}</artifactId><version>${spark.version}</version></dependency>--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-mllib_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.39</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version></dependency></dependencies><repositories><repository><id>central</id><name>Maven Repository Switchboard</name><layout>default</layout><url>http://repo2.maven.org/maven2</url><snapshots><enabled>false</enabled></snapshots></repository></repositories><build><sourceDirectory>src/main/scala</sourceDirectory><testSourceDirectory>src/test/scala</testSourceDirectory></build>
</project>

注意这里面的版本一定要对应好,我这里的spark版本是2.1.0对应的scala是2.11,因为是通过spark-core_${scala.version}是找spark依赖包的

 

(这一步参考网上,自己没试过)这里要注意下几个小问题: 
这里面会有src/main/scala和src/test/scala需要你自己在对应项目目录下构建这两个文件夹路径,若不构建会报错。

5.环境搭建好后新建package,和scala class

new发现没有 scala class时

打开设置界面的路径如下: 主界面File——>Project Structure——>modules

  • 如上图红圈所示,我们可以根据对项目的任意目录进行这五种目录类型标注,这个知识点非常非常重要,必须会。
    • Sources 一般用于标注类似 src 这种可编译目录。有时候我们不单单项目的 src 目录要可编译,还有其他一些特别的目录也许我们也要作为可编译的目录,就需要对该目录进行此标注。只有 Sources 这种可编译目录才可以新建 Java 类和包,这一点需要牢记。
    • Tests 一般用于标注可编译的单元测试目录。在规范的 maven 项目结构中,顶级目录是 src,maven 的 src 我们是不会设置为 Sources 的,而是在其子目录 main 目录下的 java 目录,我们会设置为 Sources。而单元测试的目录是 src - test - java,这里的 java 目录我们就会设置为 Tests,表示该目录是作为可编译的单元测试目录。一般这个和后面几个我们都是在 maven 项目下进行配置的,但是我这里还是会先说说。从这一点我们也可以看出 IntelliJ IDEA 对 maven 项目的支持是比彻底的。
    • Resources 一般用于标注资源文件目录。在 maven 项目下,资源目录是单独划分出来的,其目录为:src - main -resources,这里的 resources 目录我们就会设置为 Resources,表示该目录是作为资源目录。资源目录下的文件是会被编译到输出目录下的。
    • Test Resources 一般用于标注单元测试的资源文件目录。在 maven 项目下,单元测试的资源目录是单独划分出来的,其目录为:src - test -resources,这里的 resources 目录我们就会设置为 Test Resources,表示该目录是作为单元测试的资源目录。资源目录下的文件是会被编译到输出目录下的。
    • Excluded 一般用于标注排除目录。被排除的目录不会被 IntelliJ IDEA 创建索引,相当于被 IntelliJ IDEA 废弃,该目录下的代码文件是不具备代码检查和智能提示等常规代码功能。

通过上面的介绍,我们知道对于非 maven 项目我们只要会设置 src 即可。如上图箭头所示,被标注的目录会在右侧有一个总的概括。其中 classes 虽然是 Excluded 目录,但是它有特殊性,可以不显示在这里。

 

最后新建scala class

新建scala class时,kind选择object类型

到这里,所有环境都搞定了,愉快的进行spark开发吧!


http://chatgpt.dhexx.cn/article/T5gNk2bG.shtml

相关文章

Spark多语言开发

目录 1 多语言开发-说明2 Java-Spark-掌握2.1 SparkCore2.2 SparkStreaming2.3 SparkSQL2.4 StructuredStreaming2.5 线性回归算法-房价预测案例2.5.1 需求代码实现 3 PySpark-了解3.1 SparkCore3.2 SparkStreaming3.3 SparkSQL3.4 StructuredStreaming3.5 决策树算法-相亲决策…

eclipse配置spark开发环境

前言 无论Windows 或Linux 操作系统&#xff0c;构建Spark 开发环境的思路一致&#xff0c;基于Eclipse 或Idea&#xff0c;通过Java、Scala 或Python 语言进行开发。安装之前需要提前准备好JDK、Scala 或Python 环境&#xff0c;然后在Eclipse 中下载安装Scala 或Python 插件(…

idea搭建spark开发环境完整版(windows)

利用intellij idea 搭建spark开发环境&#xff08;windows&#xff09; 本文配置所有环境 Win10 企业版2016长期服务版 Jdk1.8.0.131 Hadoop2.7.3 Spark2.2.0 Scala2.11.12 一、Jdk环境配置 下载 http://www.oracle.com/technetwork/cn/java/javase/downloads/jdk8-downloads-…

Spark开发环境搭建(提供实验平台)

Spark开发环境搭建 1&#xff09;Scala环境 1. 前置说明 安装与配置Scala开发环境。 实验平台直达链接 Scala是一种函数式面向对象语言&#xff0c;它融汇了许多前所未有的特性&#xff0c;而同时又运行于JVM之上。随着开发者对Scala的兴趣日增&#xff0c;以及越来越多的…

使用Python开发spark

使用Python开发 一、Python编程语言 1.1、Python语言的特点 Python是一种面向对象的解释型计算机程序设计语言&#xff0c;具有丰富和强大的库。如今Python已经成为继JAVA&#xff0c;C之后的的第三大编程语言。 1、可性移强植 简易单学 2、免开费源 丰富库的 3、可性移强植…

Spark开发环境搭建(学习笔记)

夫君子之行&#xff0c;静以修身&#xff0c;俭以养德&#xff0c;非淡泊无以明志&#xff0c;非宁静无以致远。 夫学须静也&#xff0c;才须学也&#xff0c;非学无以广才&#xff0c;非志无以成学。淫慢则不能励精&#xff0c;险躁则不能冶性。 年与时驰&#xff0c;意与日去…

IDEA下使用maven配置Spark开发环境

IDEA下使用maven配置Spark开发环境 1、安装Java2、配置环境变量3、配置Hadoop环境4、安装Scala插件5、配置maven4、Spark编程Spark测试 使用到的软件安装包: https://pan.baidu.com/s/1fOKsPYBmOUhHupT50_6yqQ 提取码: d473 1、安装Java 点击下一步&#xff0c; 点击下一步&a…

windows配置spark开发环境

声明&#xff1a;搭建过程中&#xff0c;会因为版本兼容问题&#xff0c;造成闪退等问题&#xff0c;以下是我自用的版本&#xff0c;如需其他版本&#xff0c;最好先查一下兼容问题 1.jdk-8u333-windows-x64下载链接 2.scala-2.13.10下载链接 3.hadoop-3.2.2下载链接 4.spark-…

Spark的安装与使用 第2关:安装与配置Spark开发环境

本关任务:安装与配置Spark开发环境。 相关知识 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于Map…

Spark开发环境的搭建

(1)在/opt目录下建立 software,module两个文件&#xff0c;software用来下载安装包&#xff0c;下载或的安装包可以解压到module文件。小编下载spark的版本是&#xff1a;spark-2.3.2-bin-hadoop2.7.tgz。所以下载spark版本到software文件后&#xff0c;解压到module文件中&…

Spark 开发环境

一、安装JDK 本文写于2022年4月&#xff0c;此时最新版的JDK已经更新到了JDK17——下载地址。为了满足开发人员的需要&#xff0c;Oracle仍然提供了JDK8和JDK11可供下载&#xff0c;下载链接也在上面的网站上&#xff0c;只需要把页面下滑即可。 注&#xff1a;由于需要配置Sp…

PyCharm搭建Spark开发环境windows下安装pyspark

目录 windows下安装pysparkPyCharm搭建Spark开发环境 windows下安装pyspark spark和hadoop版本版本之间有对应关系 安装jdk 安装hadoop 下载 hadoop-2.7.7.tar.gz 配置环境变量 不再演示 下载winutils.exe https://github.com/steveloughran/winutils 选择对应的hadoop版…

MaxCompute Spark开发指南

0. 概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务&#xff0c;它在统一的计算资源和数据集权限体系之上&#xff0c;提供Spark计算框架&#xf…

idea搭建Spark开发环境

最近在公司换了一个项目组&#xff0c;做Spark项目的&#xff0c;于是开始学Spark。 版本: <scala.version>2.13.8</scala.version><spark.version>3.3.0</spark.version> 1.首先安装Scala Scala安装成功之后&#xff1a; 2.新建maven项目 pom文件: …

Spark开发学习之使用idea开发Spark应用

Spark学习之使用idea开发Spark应用 该文章是基于jdk1.8&#xff0c;idea开发工具&#xff0c;maven都配置好的前提下进行讲述的。 背景 由于已经在远程centos服务器上部署了saprk服务&#xff0c;但基于spark的应用程序的代码却是在本地idea开发的&#xff0c;那么如何能让本…

Spark开发环境搭建

一、安装Spark 1.1 下载并解压 官方下载地址&#xff1a;http://spark.apache.org/downloads.html &#xff0c;选择 Spark 版本和对应的 Hadoop 版本后再下载&#xff1a; 解压安装包&#xff1a; # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz1.2 配置环境变量 # vim /e…

IDEA2022 配置spark开发环境

本人强烈建议在 linux环境下 学习 spark&#xff01;&#xff01;&#xff01; Introduction Apache Spark是一个快速且通用的分布式计算引擎&#xff0c;可以在大规模数据集上进行高效的数据处理&#xff0c;包括数据转换、数据清洗、机器学习等。在本文中&#xff0c;我们将…

spark开发教程

spark开发教程 目录 spark开发教程前言一、初始化spark二、获取数据源1.创建数据结构2.连接外部数据textfilejdbchive 3. 数据处理rdd算子transform算子action算子 dataframe操作dataset操作 4. 共享变量5.写入数据 总结 前言 spark开发主要的基于RDD、Datasets、DataFrame、s…

Spark 开发总结

Spark 开发总结 前言spark UISpark API FunctionWindow.partitionBy Spark udfSpark 中禁止使用returnSpark NullPointExceptionSpark Shuffle FetchFailedExceptionspark 数据倾斜 前言 大数据开发过程中把自己积累的关于Spark的使用方法记录下来&#xff0c;便于不断的回顾和…

Spark 开发入门

文章目录 Spark是什么DAG有向无环图 spark环境搭建Spark开发pyspark使用pythonSpark初始化创建RDD数据的读取和保存文本文件Json文件 RDD的转换操作RDD的行动操作集合操作mysql读取 Spark是什么 整个Hadoop生态圈分为分布式文件系统HDFS、计算框架MapReduce以及资源调度框架Ya…