一、背景——联邦学习与fate简介

1、联邦学习

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，由谷歌最先提出于2016年，原用于解决安卓手机终端用户在本地更新模型的问题。其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习，目标是在保证数据隐私安全及合法合规的基础上实现共同建模，提升AI模型的效果。总的来说，联邦学习本质上是一种分布式机器学习技术或机器学习框架。

2、FATE

Federated AI Technology Enabler（简称FATE) 是由微众银行AI团队，于2019年2月推出的全球首个工业级别联邦学习框架，可以让企业和机构在保护数据安全和数据隐私的前提下进行AI协作。FATE项目使用多方安全计算 (MPC) 以及同态加密 (HE) 技术构建底层安全计算协议，以此支持不同种类的机器学习的安全计算，包括逻辑回归、基于树的算法、深度学习和迁移学习等。

FATE技术架构的底层是Tensorflow / Pytorch（深度学习）、EggRoll /Spark（分布式计算框架）和多方联邦通信网络，上层为联邦安全协议，并在安全协议的基础上构建联邦学习算法库。

在这里插入图片描述
Federatedml模块包括许多常见机器学习算法联邦化实现。所有模块均采用去耦的模块化方法开发，以增强模块的可扩展性。具体包括：

联邦统计: 包括隐私交集计算，并集计算，皮尔逊系数等；
联邦特征工程：包括联邦采样，联邦特征分箱，联邦特征选择等；
联邦机器学习算法：包括横向和纵向的联邦LR, GBDT， DNN，迁移学习等；
模型评估：提供对二分类，多分类，回归评估，联邦和单边对比评估；
安全协议：提供了多种安全协议，以进行更安全的多方交互计算。

二、Fate产品化

1、Fate操作方式

1）配置Json + fate_client命令行

为了让任务模型的构建更加灵活，目前 FATE 使用了一套自定的域特定语言 (DSL：domain-specific language) 来描述任务。在 DSL中，各种模块可以通向一个有向无环图（DAG）组织起来。通过各种方式，用户可以根据自身的需要，灵活地组合各种算法模块。

在这里插入图片描述

FATE构建联邦学习Pipeline是通过自定义dsl和conf两个配置文件来实现的：

dsl文件：用来描述任务模块，将任务模块以有向无环图（DAG）的形式组合在一起。
conf文件：设置各个组件的参数，比如输入模块的数据表名；算法模块的学习率、batch大小、迭代次数等。

执行示例：

在这里插入图片描述

2）pipeline代码行

pipeline是一个更高级的接口，它将上面提交任务的方式以及很多fate flow client命令进行了封装，使用pipeline建模就像传统方式一样在python里添加需要的模块、定义模块的参数，然后运行，而不用更改dsl的json文件，然后使用命令行提交任务。

在这里插入图片描述

2、产品化需求

1）任务配置繁琐

以上fate提交任务的两种方式，由于Fate内部模块众多，且不同的模块对应的参数不同，只有对fate框架比较熟悉的技术人员才能使用，有一定的技术门槛，对普通业务人员不友好

2）不支持component复用

在1.7以下的版本中，fate并不支持不同component的独立运行、阶段复用，只能数据预处理、数据对齐、特征工程、模型训练等步骤一次性执行结束。如果中间任何一个环节出现问题，整个任务必须重新从头执行；如果想使用相同的数据、不同的训练参数重新训练，也必须修改好对应的json后重新提交，执行完整流程。

这对于使用者来说，会带来不必要的时间浪费，如果双方的数据量较大，这个问题会更加明显。

3）缺失权限控制

这部分包括两个方面：