Spark Mllib里的分布式矩阵（行矩阵、带有行索引的行矩阵、坐标矩阵和块矩阵概念、构成）（图文详解）...

article/2025/9/19 19:43:02

　　不多说，直接上干货！

Distributed  matrix ： 分布式矩阵


　　一般能采用分布式矩阵，说明这数据存储下来，量还是有一定的。
在Spark Mllib里，提供了四种分布式矩阵存储形式，均由支持长整形的行列数和双精度浮点型的数据内容组成。
　　包括行矩阵、带有行索引的行矩阵、坐标矩阵和块矩阵。  依据你数据的不同的特点，你可以选择不同类型的数据。


　　
　　（1）、行矩阵： 以行为基本方向的矩阵存储格式，列的作用相对较少。
　　　　　　理解记忆，行矩阵是一个巨大的特征向量的集合　　
　　　　　　每一行就是一个具有相同格式的向量数据，且每一行的向量内容都可以单独取出来进行操作。
　　　　要注意的是，此种矩阵不能按照行号访问。（我也不知道为什么这样）





testRowMatrix.scala

package zhouls.bigdata.chapter4import org.apache.spark._
import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.mllib.linalg.distributed.RowMatrixobject testRowMatrix {def main(args: Array[String]) {val conf = new SparkConf()                                       //创建环境变量.setMaster("local")                                               //设置本地化处理.setAppName("testRowMatrix")                                    //设定名称val sc = new SparkContext(conf)                                   //创建环境变量实例val rdd = sc.textFile("data/input/chapter4/RowMatrix.txt")                                     //创建RDD文件路径.map(_.split(' ')                                                //按“ ”分割.map(_.toDouble))                                             //转成Double类型.map(line => Vectors.dense(line))                                //转成Vector格式val rm = new RowMatrix(rdd)                                      //读入行矩阵println(rm.numRows())                                           //打印列数println(rm.numCols())                                            //打印行数}
}

　　这里，我带你是的

RowMatrix要从RDD[Vector]构造，m是mat的行数，n是mat的列。

 （2）  带有行索引的矩阵
　　　　单纯的行矩阵对其内容无法进行直接显示，当然可以通过调用其方法显示内部数据内推。即通过带有行索引的行矩阵。
　　IndexedRowMatrix矩阵和RowMatrix矩阵的不同之处在于，你可以通过索引值来访问每一行。其他的，没啥区别。



testIndexedRowMatrix.scala

package zhouls.bigdata.chapter4import org.apache.spark._
import org.apache.spark.mllib.linalg.distributed.{IndexedRow, RowMatrix, IndexedRowMatrix}
import org.apache.spark.mllib.linalg.{Vector, Vectors}object testIndexedRowMatrix {def main(args: Array[String]) {val conf = new SparkConf()                                       //创建环境变量.setMaster("local")                                               //设置本地化处理.setAppName("testIndexedRowMatrix")                          //设定名称val sc = new SparkContext(conf)        //创建环境变量实例val rdd = sc.textFile("data/input/chapter4/loadLibSVMFile.txt")                                     //创建RDD文件路径.map(_.split(' ')                                                //按“ ”分割.map(_.toDouble))                                             //转成Double类型.map(line => Vectors.dense(line))                               //转化成向量存储.map((vd) => new IndexedRow(vd.size,vd))                      //转化格式val irm = new IndexedRowMatrix(rdd)                             //建立索引行矩阵实例println(irm.getClass)                                            //打印类型println(irm.rows.foreach(println))                                 //打印内容数据}
}

　　打印结果是

class  org.apache.spark.mllib.linalg.distributed.IndexedRowMatrix
IndexedRow(3,[1.0,2.0,3.0])

IndexedRow(3,[4.0,5.0,6.0])

　　注意：IndexedRowMatrix除了这个带有行索引的行矩阵功能外，还有其他功能，如：
　　　　　　toRowMatrix将其转化成单纯的行矩阵，toCoordinateMatrix将其转化成坐标矩阵，toBlockMatrix将其转化成块矩阵。




（3） 坐标矩阵
　　　　是一种带有坐标标记的矩阵。
　　坐标矩阵一般用于数据比较多且数据较为分散的情形，即矩阵中含0或者某个具体值较多的情况下。
　　当你的数据特别稀疏的时候怎么办？采用这种坐标矩阵吧。
　　CoordinateMatrix矩阵中的存储形式是（row，col，value），就是原始的最稀疏的方式，所以如果矩阵比较稠密，别用这种数据格式。
　　其中的每一个具体数据都有一组坐标进行标示。其类型格式如下：

(x: Long  ,  y:Long  , value:Double)

　　x和y分别代表标示坐标的坐标轴标号，value是具体内容。x是行坐标，y是列坐标。



testCoordinateRowMatrix.scala

package zhouls.bigdata.chapter4import org.apache.spark._
import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}object testCoordinateRowMatrix {def main(args: Array[String]) {val conf = new SparkConf()                                       //创建环境变量.setMaster("local")                                               //设置本地化处理.setAppName("testCoordinateRowMatrix")                          //设定名称val sc = new SparkContext(conf)                                  //创建环境变量实例val rdd = sc.textFile("data/input/chapter4/loadLibSVMFile.txt")                                     //创建RDD文件路径.map(_.split(' ')                                                //按“ ”分割.map(_.toDouble))                                             //转成Double类型.map(vue => (vue(0).toLong,vue(1).toLong,vue(2)))                //转化成坐标格式.map(vue2 => new MatrixEntry(vue2 _1,vue2 _2,vue2 _3))         //转化成坐标矩阵格式val crm = new CoordinateMatrix(rdd)                              //实例化坐标矩阵println(crm.entries.foreach(println))                                //打印数据}
}


　　　运行结果是，

MatrixEntry(1,2,3.0)
MatrixEntry(4,5,6.0)

Spark Mllib里的分布式矩阵（行矩阵、带有行索引的行矩阵、坐标矩阵和块矩阵概念、构成）（图文详解）...

相关文章

Shiro权限管理详解（授权和注解开发）【面试点】

Shiro权限管理之自定义Realm

权限管理框架Shiro简介

Java shiro权限管理框架视频教程

【Shiro权限管理】一、简介

SSM集成shiro权限管理

shiro权限管理的应用

shiro权限管理框架简介（一）

shiro权限管理框架学习

shiro权限管理的配置

Shiro 权限管理入门之认证与授权

Shiro权限管理详解

Shiro权限控制

Shiro权限管理框架详解

Shiro 权限管理

Shiro：权限管理

【权限管理框架】一文看懂Shiro权限管理框架！

【端口扫描工具】nmap核心使用方法

【安全工具】Nmap基本使用方法

nmap工具使用方法