Apache Ranger剖析:Hadoop生态圈的安全管家

article/2025/9/19 5:18:00

前言

2016年,Hadoop迎来了自己十周岁生日。过去的十年,Hadoop雄霸武林盟主之位,号令天下,引领大数据技术生态不断发展壮大,一时间百家争鸣,百花齐放。然而,兄弟多了不好管,为了抢占企业级市场,各家都迭代出自己的一套访问控制体系,不管是老牌系统(比如HDFS、HBase),还是生态新贵(比如Kafka、Alluxio),ACL(Access Control List)支持都是Roadmap里被关注最高的issue之一。

历史证明跳出混沌状态的最好方式就是——出台标准。于是,Hadoop两大厂Cloudera和Hortonworks先后发起标准化运动,分别开源了Sentry和Ranger,在centralized访问控制领域展开新一轮的角逐。

Ranger在0.4版本的时候被Hortonworks加入到其Hadoop发行版HDP里,目前作为Apache incubator项目,最新版本是0.6。它主要提供如下特性:

  • 基于策略(Policy-based)的访问权限模型

  • 通用的策略同步与决策逻辑,方便控制插件的扩展接入

  • 内置常见系统(如HDFS、YARN、HBase)的控制插件,且可扩展

  • 内置基于LDAP、文件的用户同步机制,且可扩展

  • 统一的管理界面,包括策略管理、审计查看、插件管理等

本文将从权限模型、总体架构、系统插件三个角度来展开,剖析Ranger如何实现centralized访问控制。

权限模型

访问权限无非是定义了”用户-资源-权限“这三者间的关系,Ranger基于策略来抽象这种关系,进而延伸出自己的权限模型。为了简化模型,便于理解,我用以下表达式来描述它:

Policy = Service + List<Resource> + AllowACL + DenyACL
AllowACL = List<AccessItem> allow + List<AccssItem> allowException
DenyACL = List<AccessItem> deny + List<AccssItem> denyException
AccessItem = List<User/Group> + List<AccessType>

接下来从”用户-资源-权限”的角度来详解上述表达:

  • 用户:由User或Group来表达;User代表访问资源的用户,Group代表用户所属的用户组。

  • 资源:由(Service, Resource)二元组来表达;一条Policy唯一对应一个Service,但可以对应多个Resource。

  • 权限:由(AllowACL, DenyACL)二元组来表达,两者都包含两组AccessItem。而AccessItem则描述一组用户与一组访问之间的关系——在AllowACL中表示允许执行,而DenyACL中表示拒绝执行。

下表列出了几种常见系统的模型实体枚举值:
Ranger模型实体枚举值

关于权限这个部分,还有一点没有解释清楚:为什么AllowACL和DenyACL需要分别对应两组AccessItem?这是由具体使用场景引出的设计:

以AllowACL为例,假定我们要将资源授权给一个用户组G1,但是用户组里某个用户U1除外,这时只要增加一条包含G1的AccessItem到AllowACL_allow,同时增加一条包含U1的AccessItem到AllowACL_allowException即可。类似的原因可反推到DenyACL。

既然现在一条Policy有(allow, allowException, deny, denyException)这么四组AccessItem,那么判断用户最终权限的决策过程是怎样的?

总体来说,这四组AccessItem的作用优先级由高到低依次是:

denyException > deny > allowException > allow

访问决策树可以用以下流程图来描述:

Created with Raphaël 2.1.0 用户请求资源 找到所有资源 匹配的Policy 有deny AccessItem匹配 有denyException AccessItem匹配 有allow AccessItem匹配 有allowException AccessItem匹配 拒绝访问 /决策下放 允许访问 拒绝访问 yes no yes no yes no yes no

这里要对决策下放做一个解释:如果没有policy能决策访问,Ranger可以选择将决策下放给系统自身的访问控制层,比如HDFS的ACL。

总体架构

Ranger的总体架构如下图所示,主要由以下三个组件构成:

  • AdminServer: 以RESTFUL形式提供策略的增删改查接口,同时内置一个Web管理页面。

  • AgentPlugin: 嵌入到各系统执行流程中,定期从AdminServer拉取策略,根据策略执行访问决策树,并且定期记录访问审计。插件的实现原理将在后文详细介绍。

  • UserSync: 定期从LDAP/File中加载用户,上报给AdminServer。

Ranger总体架构

系统插件

前文已经提到,系统插件主要负责三件事:

  • 定期从AdminServer拉取策略

  • 根据策略执行访问决策树

  • 定期记录访问审计

以上执行逻辑是通用的,可由所有系统插件引用,因此剩下的问题是如何把这些逻辑嵌入到各个系统的访问决策流程中去。目前Ranger里有两种做法:

  • 实现可扩展接口:多数的系统在实现时都有考虑功能扩展性的问题,一般会为核心的模块暴露出可扩展的接口,访问控制模块也不例外。Ranger通过实现访问控制接口,将自己的逻辑嵌入各个系统。下表列出了Ranger插件对几个常见系统的扩展接口:

Ranger插件扩展接口

  • 代码注入:不排除有少数系统没有将访问控制模块暴露出扩展点,这个时候Ranger依赖Java代码注入机制(java.lang.instrument)来实现逻辑嵌入。以HDFS插件为例,Ranger利用ClassFileTransformer,直接修改HDFS访问控制类FSPermissionChecker的ClassFile,将checkPermission方法替换成Ranger的自定义实现。

后话

随着Hadoop生态圈进军企业级市场,数据安全逐渐成为关注焦点。Ranger作为标准化的访问控制层,引入统一的权限模型与管理界面,极大地简化了数据权限的管理。不过,Ranger目前处于孵化项目,在功能性与稳定性上仍然有较大的提升空间,其能否覆盖更多的系统,一统江湖成为标准,让我们拭目以待。


http://chatgpt.dhexx.cn/article/v8HGFLAe.shtml

相关文章

【转载】Apache Ranger剖析:Hadoop生态圈的安全管家

前言 2016年&#xff0c;Hadoop迎来了自己十周岁生日。过去的十年&#xff0c;Hadoop雄霸武林盟主之位&#xff0c;号令天下&#xff0c;引领大数据技术生态不断发展壮大&#xff0c;一时间百家争鸣&#xff0c;百花齐放。然而&#xff0c;兄弟多了不好管&#xff0c;为了抢占…

CheckPoint的一些探寻

由于上项目的模块计算部分依赖于spark&#xff0c;那么在spark的使用上&#xff0c;需要针对不同规模和形式的数据&#xff0c;都要能最大限度的做到数据变换&#xff0c;模型计算等计算的稳定性支持。这也是elemental目前急需优化的瓶颈所在。这里&#xff0c;我们针对下面的场…

Flink学习1-基础概念

Flink学习1-基础概念 Flink系列文章 更多Flink系列文章请点击Flink系列文章 更多大数据文章请点击大数据好文推荐 摘要 本文是作者学习Flink的一些文档整理、记录和心得体会&#xff0c;希望与大家共同学习探讨。 1 Flink简介 1.1 概念 Apache Flink是一个开源的分布式流…

Ranger架构剖析

Ranger介绍 2016年&#xff0c;Hadoop迎来了自己十周岁生日。过去的十年&#xff0c;Hadoop雄霸武林盟主之位&#xff0c;号令天下&#xff0c;引领大数据技术生态不断发展壮大&#xff0c;一时间百家争鸣&#xff0c;百花齐放。然而&#xff0c;兄弟多了不好管&#xff0c;为了…

Ranger架构

一、Ranger介绍 随着大数据技术生态不断发展壮大&#xff0c;为了抢占企业级市场&#xff0c;各厂商都迭代出自己的一套访问控制体系&#xff0c;不管是老牌系统&#xff08;比如HDFS、HBase&#xff09;&#xff0c;还是生态新贵&#xff08;比如Kafka、Alluxio&#xff09;&…

大数据技术栈概貌

一、大数据技术栈概貌 pig&#xff1a;要使用 Apache Pig 分析数据&#xff0c;程序员需要使用Pig Latin语言编写脚本。所有这些脚本都在内部转换为Map和Reduce任务。sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。导入数据&#xff1a;MySQL&…

一节课轻松通关 Spark

大数据跟我学系列文章007-三节课轻松通关 Spark &#xff08;一&#xff09; 文章目录 大数据跟我学系列文章007-三节课轻松通关 Spark &#xff08;一&#xff09;前言第01讲&#xff1a; MapReduce&#xff1a;计算框架和编程模型第02讲&#xff1a;Hadoop&#xff1a;集群的…

基于深度强化学习的连接查询优化

Krishnan, S., et al. (2018). "Learning to optimize join queries with deep reinforcement learning." 如何优化 SQL 连接是数据库社区数十年来一直在研究的一个大问题。伯克利 RiseLab 公布的一项研究表明&#xff0c;深度强化学习可以被成功地应用在优化 SQL 连…

Flink流处理框架总结

Flink流处理框架 第一部分 Flink 概述第 1 节 什么是 Flink第 2 节 Flink 特点第 2 节 Flink 应用场景第 4 节 Flink 核心组成及生态发展第 5 节 Flink 处理模型&#xff1a;流处理与批处理第 6 节 流处理引擎的技术选型 第二部分 Flink快速应用第 1 节 单词统计案例&#xff0…

Presto(Trino)动态过滤与优化器

Presto 系列文章目录- 动态过滤与谓词下推 文章目录 Presto 系列文章目录- 动态过滤与谓词下推trino性能提升新特性Dynamic partition pruning动态分区裁剪设计注意事项执行未来的工作 Hive connector延迟执行动态过滤器 动态过滤分析和确认动态过滤器收集阈值维度表布局局限性…

AI 应用的全流程存储加速方案技术解析和实践分享

AI 应用对存储系统的挑战是全面的&#xff0c;从离应用最近的数据计算如何加速&#xff0c;到离应用最远的数据存储如何管理&#xff0c;到数据存储和数据计算之间如何高效流通&#xff0c;再到不同应用之间的资源调度如何协调 …… 这其中每一个环节的低效&#xff0c;都有可能…

flink部署-1.13

1. 版本说明 本文档内容基于 flink-1.13.x&#xff0c;其他版本的整理&#xff0c;请查看本人博客的 flink 专栏其他文章。 2. 概述 Flink 是一种通用性框架&#xff0c;支持多种不同的部署方式。 本章简要介绍 Flink 集群的组成部分、用途和可用实现。如果你只是想在本地启…

Spark2.1.0——存储体系概述

本书在5.7节曾介绍过存储体系的创建,那时只为帮助读者了解SparkEnv,现在是时候对Spark的存储体系进行详细的分析了。简单来讲,Spark存储体系是各个Driver、Executor实例中的BlockManager所组成的。但是从一个整体出发,把各个节点的BlockManager看成存储体系的一部分,那么存…

探秘百度数据工厂Pingo的多存储后端数据联合查询技术

作者介绍&#xff1a;张志宏&#xff0c;2013年加入百度大数据部&#xff0c;曾作为核心成员参与百度大数据平台的搭建。目前是百度数据工厂Pingo核心团队的技术负责人。 Pingo是来自百度的离线大数据集成开发平台&#xff0c;使用Spark作为计算引擎&#xff0c;深度整合了资源…

Tachyon与Ignite系统对比

1. Alluxio(原Tachyon)内存文件系统 1.1 系统概述 Alluxio&#xff08;原Tachyon&#xff09;是以内存为中心(memory-centric)的虚拟的分布式存储系统&#xff0c;拥有高性能和容错能力&#xff0c;能够为集群框架&#xff08;如Spark、MapReduce&#xff09;提供可靠的内存级…

百度案例:利用Alluxio实现安全的即插即用分布式文件系统

全文共3361字,预计学习时长7分钟 本文介绍了百度如何依靠开源项目Alluxio,在一个企业大数据分析解决项目Pingo中创建了一个安全、模块化和可扩展的分布式文件系统服务。 在这篇文章中,你将学习如何依靠Alluxio来实现一个统一的分布式文件系统服务,以及如何在Alluxio之上添…

如何通过API调用alluxio 文件系统

如何通过API调用alluxio 文件系统 一般来说&#xff0c;不论从spark&#xff0c;hfds等等大数据分布式框架&#xff0c;甚至使用公有云api&#xff0c;来说&#xff0c;与集群进行交互不外乎以下这些套路&#xff1a; 设置configuration&#xff08;有很重要的主节点host&…

office产品密钥如何找回

明明自己有正版office产品密钥却因为时间太久种种原因找不到了&#xff0c;登录微软账户查看信息也没有&#xff0c;怎么办&#xff1f;&#xff1f; 不要着急&#xff0c;只要你还记得你当时激活office的微软账号和密码&#xff0c;可以登录微软账户&#xff0c;follow me&am…

qq恢复官方网站服务器繁忙,qq恢复官方网站

删除好友&#xff0c;又后悔了&#xff01;&#xff01;&#xff1f;&#xff1f; 想把好友找回来&#xff1f; 世上没有后悔药,但是系统是还是人性化的&#xff0c; 所以&#xff0c;QQ官方给广大用户提供了好友找回功能。登录qq以恢复官方网络以恢复朋友操作。 在qq恢复官方网…

手机计算机怎么恢复出厂设置密码,如何找回手机锁屏密码?

原标题&#xff1a;如何找回手机锁屏密码&#xff1f; 世界上最遥远的距离不是我站在你面前你却不知道我爱你&#xff0c;而是手机明明在手上偏偏忘了锁屏密码&#xff01; 我们总是会有犯傻的时候&#xff0c;比如突然想到一个数字觉得还不错&#xff0c;于是想着给手机改个密…