全文共3361字,预计学习时长7分钟
本文介绍了百度如何依靠开源项目Alluxio,在一个企业大数据分析解决项目Pingo中创建了一个安全、模块化和可扩展的分布式文件系统服务。
在这篇文章中,你将学习如何依靠Alluxio来实现一个统一的分布式文件系统服务,以及如何在Alluxio之上添加插件,这包括自定义身份验证方案和Alluxio文件上的用户函数UDF。
目标和挑战
Pingo是百度的产品,提供离线大数据分析解决方案,依靠Apache Spark作为资源调度、数据和元数据管理,以及工作流管理的计算引擎。Pingo不仅应用于百度的内部基础设施建设,还用于服务百度公共云和私有云的部署。
鉴于这些目标用例的需求,Pingo在设计上需要支持高效和统一的数据访问:无论数据是本地的还是远程的,结构化的还是非结构化的,存储在on-prem存储设备或云存储服务中。此外,由于企业需要处理大量的文件,在身份验证和授权方面的安全需求迫使Pingo做出更加复杂的设计。
Pingo利用Alluxio从各种存储解决方案里抽象出数据差异。Pingo还对Alluxio进行了改进,从而能够提供统一的身份验证管理,而不暴露原始存储系统的身份验证信息。