三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

首次发现!数据异构体影响联邦学习模型,重要的是维数崩溃-量子比特的表征,

  • 时间:
  • 浏览:0

随着深度学习的成功,保护用户的数据隐私变得越来越重要。

基于隐私保护的分布式机器学习框架Federated Learning诞生了。

这样,您就可以在本地保留原始数据,并在多方面共同共享模型培训。

然而,数据的异质化(data heterogenity),即不同参与者的本地数据来自不同的分布,这严重影响了全局模型的最终性能,背后的原因也非常复杂。

字节跳动、新加坡国立大学和中科院自动化所的学者们首次发现了重要的影响因素。

也就是说,数据的异质化导致了表征的维度崩溃,这大大限制了模型的表达能力,并影响了最终的全局模型的性能。

为了缓解这个问题,研究人员提出了一个新的联邦学习正则:FedDecorr。

结果表明,使用该方法后,有效地缓解了数据异质化引起的维数崩溃问题,显著提高了模型在此场景中的性能。

同时该方法实现简单,几乎不造成额外的计算负担,并且可以很容易地参与许多联邦学习算法。

怎么影响。观察1:更严重的数据异质化会导致全球模型(global model)更严重的维度崩溃首先,为了更好地理解数据异质化如何影响全球模型输出特征,研究人员认为随着数据异质化越来越严重我们探索了全局模型输出特征如何变化。

基于模型输出的表征,估计该表征分布的协方差矩阵(covariance matrix),按照从大到小的顺序可视化该协方差矩阵的特征值。结果如下所示。α越小异质化程度越高α在正无限的情况下是同质化场景。k是特征值的index。

对于该曲线,在大部分特征值比较大的情况下,即意味着特征能够在不同的特征方向上均匀分布。另一方面,如果曲线只有前几个特征值大,而后面的大多数特征值小,则表示特征值分布在少数特征值方向上压缩,即维崩溃现象。

因此,从图中可以看出,随着数据的异质化(α越来越小),维度崩溃的现象越来越严重。

观察2:全球模型的维度崩溃来自于联邦参与各方本地模型的维度崩溃,由于全球模型是联邦参与各方本地模型融合的结果,因此作者推测,全球模型的维度崩溃来源于联邦参与各方本地模型的维度崩溃。

为了进一步验证该估计,作者使用类似于观察1的方法来可视化在不同程度的数据异质化场景中获得的局部模型。结果如下所示。

从图中可以看出,在局部模型中,随着数据异质化程度的提高,维数崩溃的现象也越来越严重。因此,我们得出结论,全球模型的维度崩溃来自于联邦参与者的本地模型的维度崩溃。

怎么解决。在以上两种观察的触发下,全球模型的维数崩溃来源于本地本地模型的维数崩溃,因此研究人员建议在本地训练阶段解决联邦学习中的特征维数崩溃问题。

首先,最直观的正规项是:。

在这里

第二

个特征值。此正则项通过减小约束特征值之间的方差,并使较小的特征值不偏向于0来缓解维的崩溃。

但直接计算特征值往往会带来数值不稳定、计算时间长等问题。因此,使用以下步骤改进方法。

为了便于处理,需要对特征向量进行zscore归一化。这将使协方差矩阵成为相关系数矩阵(所有对角线元素均为1、

基于此背景,可以得到以下的proposition:

该过程意味着,原本基于复杂特征值的归一化项被转换为易于实现且易于计算的以下目标:

该正则项具有较小的相关系数矩阵的Frobenius norm,其是简单的约束表征。研究人员将这种方法命名为FedDecorr。

因此,对于每个联邦学习参与者,本地优化目标如下:。

在这里

作为分类交叉熵损失函数β是超参数,即FedDecorr正则项中的系数。

实验结果首先验证了FedDecorr是否可以有效地缓解维崩溃。

在…之上α=在两个强数据0.01/0.05异质化的场景中,观察到FedDecorr对模型输出特性评估的影响。

结果如下所示。

您可以看到,FedDecorr可以有效缓解本地本地模型的维崩溃,并进一步缓解全局模型的维崩溃。

在CIFAR10/100的两个数据集中验证方法。研究小组发现,FedDecorr可以轻松参与之前提出的多种联邦学习方法,带来显著的提高:

此外,为了显示方法的可扩展性,作者在大规模数据集(TinyImageNet)上进行了实验,并观察到显著提高:

此外,基于TinyImageNet验证了FedDecorr在更大规模联邦参与者场景中的有效性。

结果如下表所示。实验结果表明,FedDecorr可用于大型联邦参与者场景。

FedDecorr对正则项系数(超参数β)的鲁棒性结果如下图所示。

实验表明,FedDecorr对其超参数β鲁棒性强。

同时β设置为0.1是很好的默认值。

最后,研究人员验证了在联邦学习时,使用不同的local epoch FedDecorr也能带来普遍的提高:

论文地址:https://arxiv.org/abs/2210.00226代码链接:https://github.com/bytedance/FedDecorr