【文献学习】群体知识转移:边缘大型cnn的联邦学习

admin • 2022-12-20 19:59 • 人工智能

为了解决边缘设备资源受限的现实，文章将FL重新定义为一种组知识转移训练算法，称为FedGKT。FedGKT设计了交替最小化方法的一种变体，在边缘节点上训练小型CNN，并定期通过知识蒸馏（Knowledge Distillation）将其知识转移到大型服务器端CNN。

它减少了边缘计算的需求，降低大型cnn的通信带宽，以及异步训练，同时保持与FedAvg相当的模型精度。结果表明，FedGKT可以获得与FedAvg相当甚至略高的精度。更重要的是，FedGKT使边缘培训负担得起。与使用FedAvg的边缘训练相比，FedGKT在边缘设备上所需的计算能力(FLOPs)减少了9至17倍，在边缘CNN中所需的参数减少了54至105倍。

FedGKT可以将知识从许多在边缘训练的紧凑CNN转移到在云服务器上训练的大型CNN。FedGKT的本质是将FL重新定义为交替最小化(AM)方法，该方法通过交替固定一个随机变量和优化另一个随机变量来优化两个随机变量(边缘模型和服务器模型)。

一般来说，我们可以将基于CNN的联邦学习表述为一个分布式优化问题：

作者指出，现有的联邦优化方法的主要缺点在于缺乏GPU加速器和足够的内存，无法在资源受限的边缘设备上训练大型CNN。

为了解决现有FL中的资源约束问题，考虑另一种求解FL问题的方法：将权重W分为一个小型的特征提取器We和大规模的服务器端模型Ws。我们还为We添加了一个分类器Wc，以在边缘上创建一个小型但完全可训练的模型。因此，我们将单个全局模型优化重新表述为一个非凸优化问题，要求我们同时求解服务器模型Fs和边缘模型Fc。