【文献学习】群体知识转移:边缘大型cnn的联邦学习

        为了解决边缘设备资源受限的现实,文章将FL重新定义为一种组知识转移训练算法,称为FedGKT。FedGKT设计了交替最小化方法的一种变体,在边缘节点上训练小型CNN,并定期通过知识蒸馏(Knowledge Distillation)将其知识转移到大型服务器端CNN。

        它减少了边缘计算的需求,降低大型cnn的通信带宽,以及异步训练,同时保持与FedAvg相当的模型精度。结果表明,FedGKT可以获得与FedAvg相当甚至略高的精度。更重要的是,FedGKT使边缘培训负担得起。与使用FedAvg的边缘训练相比,FedGKT在边缘设备上所需的计算能力(FLOPs)减少了9至17倍,在边缘CNN中所需的参数减少了54至105倍。


        FedGKT可以将知识从许多在边缘训练的紧凑CNN转移到在云服务器上训练的大型CNN。FedGKT的本质是将FL重新定义为交替最小化(AM)方法,该方法通过交替固定一个随机变量和优化另一个随机变量来优化两个随机变量(边缘模型和服务器模型)。

        一般来说,我们可以将基于CNN的联邦学习表述为一个分布式优化问题:

         作者指出,现有的联邦优化方法的主要缺点在于缺乏GPU加速器和足够的内存,无法在资源受限的边缘设备上训练大型CNN。


        为了解决现有FL中的资源约束问题,考虑另一种求解FL问题的方法:将权重W分为一个小型的特征提取器We和大规模的服务器端模型Ws。我们还为We添加了一个分类器Wc,以在边缘上创建一个小型但完全可训练的模型。因此,我们将单个全局模型优化重新表述为一个非凸优化问题,要求我们同时求解服务器模型Fs和边缘模型Fc

         注意到,式子5可以被客户端独立求解。对于大型CNN训练,将H^(k)_i传输到服务器的通信带宽远远小于传统联邦学习中通信所有模型参数的带宽。我一开始没看懂这些式子,我认为需要结合下图分析一下:

         从式子4到5的变化实际上就是换了个说法,前者是以f描述,后者是以fc描述。服务器模型fs则使用H(k)i作为输入特征进行训练。

        上述reformation的核心优势是,当我们假设f(k)的模型大小比fs小多个数量级时,边缘训练是负担得起的。

        直观地说,从服务器模型转移的知识可以促进边缘的优化(式(5))。服务器CNN从多个边吸收知识,单个边CNN从服务器CNN获得增强的知识:

         这里用到了KL散度(D_KL)。ls和lc分别是边缘模型f (k)和服务器模型fs的概率预测。zs和z(k)c分别是服务器模型和客户端模型中最后一个全连接层的输出。接下来文章提出了交替最小化(AM)的变体,以解决重新表述的优化问题:

         (为什么(8)的第二个输入参数有个k?)

        上面方程中的*上标表示在优化过程中相关随机变量是固定的。W (k)是W (k)e和W (k)c的组合。

        (8)中,我们固定W (k)并优化(训练)W s几个周期,然后我们切换到(10)来固定W s并优化W (k)几个周期。这种优化在式(8)和式(10)之间的许多轮中进行,直到达到收敛状态。

 

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇

)">
下一篇>>