低耗能高速度，EPFL和微软研究团队的新方法：深度物理神经网络的无反向传播训练

随着大规模深度神经网络（NN）和其他人工智能（AI）应用的最新发展，人们越来越担心训练和操作它们所需的能源消耗。

物理神经网络可以成为这个问题的解决方案，但传统算法的直接硬件实现面临着多重困难。使用传统反向传播算法训练神经网络会面临一些挑战，例如缺乏可扩展性、训练过程中操作的复杂性以及对数字训练模型的依赖。

洛桑联邦理工学院（École Polytechnique Fédérale de Lausanne，EPFL）和微软研究团队（Microsoft Research）等机构组成的合作团队提出了一种通过物理局部学习（PhyLL）算法增强的简单深度神经网络架构，该架构可以对深度物理神经网络进行监督和无监督训练，而无需详细了解非线性物理层的属性。

利用这种方法，研究人员在元音和图像分类实验中训练了多种基于波的物理神经网络，并展示了该方法的普遍性。该团队的方法比其他硬件感知训练方案具有优势，可以提高训练速度、增强稳健性；同时，通过消除系统建模的需要来降低功耗，从而减少数字计算需求。

该研究以「Backpropagation-free training of deep physical neural networks」为题发，于 2023 年 11 月 23 日发布在《Science》。

深度学习已成为一项取得了巨大成功的突破性技术，主要在传统的冯·诺依曼计算硬件上运行。该技术目前面临高能耗（例如 GPT-3 的 1.3 GWh 用电量）和低计算速度的问题。

由于这些挑战，科学家正在探索人工神经网络（ANN）的替代物理平台，包括光学、自旋电子学、纳米电子设备、光子硬件和声学系统。

目前，局部学习已被广泛研究用于训练数字神经网络，从早期的 Hopfield 模型中的 Hebbian 对比学习工作到最近的生物学合理框架、块式 BP 和对比表示学习。

受这一概念的启发，为了解决基于 BP 的 PNN 训练的局限性，EPFL 等机构的研究人员提出了一种简单且物理兼容的 PNN 架构，并通过物理局部学习 (PhyLL) 算法进行了增强。

图：Deep PNNs。（来源：论文）

该方法能够在本地对任意 PNN 进行监督和无监督对比学习训练，而无需了解非线性物理层并训练数字孪生模型。在这种无 BP 方法中，通常由数字计算机执行的标准后向传递被替换为通过物理系统的附加单个前向传递。

这种替代可以消除由于其他硬件感知框架中存在的数字孪生建模阶段而产生的额外开销，从而提高基于波的 PNN 训练阶段的训练速度、功耗和内存使用率。

图：Acoustic-PNN。（来源：论文）

该方法即使在暴露于不可预测的外部扰动的系统中，依然能保持稳健性和适应性。

图：Deep PNN 对不可预测的外部扰动的稳健性。（来源：论文）

为了展示该方法的普遍性，研究人员使用三个基于波的系统进行了实验元音和图像分类，这三个系统在潜在的波现象和所涉及的非线性类型方面有所不同。

图：Microwave-PNN。（来源：论文）

由于人工神经网络规模空前增长，例如预计将不断增加的大型语言模型（LLM），这些网络的训练和推理阶段的成本呈指数级增长。

PNN 等专用硬件有可能大幅降低这些成本。之前 Anderson 团队曾经预测，与未来大型 Transformer 模型的数字电子处理器相比，推理时间能效优势约为 8000 倍。EPFL 团队提出的训练方法可以作为训练这些光学 LLMs 的可行候选方法，有可能提供显著的能源效率和速度优势。

图：Optics-PNN。（来源：论文）

利用光学实现大规模 LLM 仍然面临一些挑战，例如当前的 SLM 容量仅限于几百万个参数，远低于所需的数十亿个参数。然而，实现十亿参数光学架构和节能 PNN 并不存在根本障碍。

《Science》杂志副主编 Yury Suleymanov 评价道：「该研究是优化神经网络中的能源密集型训练步骤的重要一步，从而为现代人工智能系统提供更有效的解决方案。」

论文链接：https://www.science.org/doi/10.1126/science.adi8474

原创文章，作者：计算搬砖工程师，如若转载，请注明来源华算科技，注明出处：https://www.v-suan.com/index.php/2024/01/10/88738221c4/

低耗能高速度，EPFL和微软研究团队的新方法：深度物理神经网络的无反向传播训练

相关推荐

分享到：