首页  技术文章  用反向传播训练的深度物理神经网络

用反向传播训练的深度物理神经网络

发布时间:2022-04-07 08:45:01 浏览量:1629 作者:LY.Young 光学前沿

摘要

与人工智能的许多历史发展一样,深度神经网络(DNN)得以广泛采用的部分原因在于协同硬件。2012年,Krizhevsky等人表明反向传播算法可以使用GPU有效地执行,以训练大型DNN进行图像分类。自2012年以来,DNN模型的计算需求迅速增长,甚至超过了摩尔定律。现在DNN越来越受到硬件能效的限制。

正文


用反向传播训练的深度物理神经网络


技术背

与人工智能的许多历史发展一样,深度神经网络(DNN)得以广泛采用的部分原因在于协同硬件。2012年,Krizhevsky等人表明反向传播算法可以使用GPU有效地执行,以训练大型DNN进行图像分类。自2012年以来,DNN模型的计算需求迅速增长,甚至超过了摩尔定律。现在DNN越来越受到硬件能效的限制。

新兴的DNN能量问题激发了专用硬件:DNN加速器。其中大部分是基于硬件物理和DNN中的数学运算之间的直接数学同构。一些加速器方案使用传统电子设备之外的物理系统,如光学和模拟电子交叉阵列等。大多数设备都针对深度学习的推理阶段(现在也有越来越多的设备针对训练阶段),这占商业部署中深度学习能源成本的90%。

然而,通过为严格的、逐个操作的数学同构设计硬件来实现训练有素的数学变换并不是执行高效机器学习的唯一方法。相反,我们可以直接训练硬件的物理变换来执行所需的计算。这种操作可以称为物理神经网络(physical neural network, PNN)。PNN强调训练的是物理过程,而不是数学运算。这种区别不仅仅是语义上的:通过打破传统的软件-硬件划分,PNN提供了从几乎任何可控物理系统构建神经网络硬件的可能性。正如任何模拟过复杂物理系统的人所了解的那样,物理变换通常比对应的数字仿真更快且消耗更少的能量。这表明,PNN可以比传统范式更有效地执行某些计算,从而为更可拓展、更节能和更快的机器学习提供途径。

PNN尤其适用于类似于DNN的计算。正如它们对自然数据的稳健处理所预期的那样,DNN和物理过程具有许多结构相似性,如层次结构(hierarchy)、近似对称性(approximate symmetries)、噪声、冗余和非线性。随着物理系统的发展,它们执行的变换有效地等效于DNN中常用的数学运算的近似、变体和/或组合,如卷积、非线性和矩阵向量乘法。因此,使用受控物理变换序列,可以实现可训练的分层物理计算,即深度PNN。

尽管通过直接训练物理变换来构建计算机的范式起源于进化的计算材料,但它今天正在各个领域出现,包括光学、自旋电子纳米振荡器、纳米电子器件和小规模量子计算机。一个密切相关的趋势是物理储备池计算(physical reservoir computing, PRC),其中未经训练的物理“储备池”的变换由可训练的输出层线性组合。尽管 PRC利用通用物理过程进行计算,但它无法实现类似DNN的分层计算。相比之下,训练物理变换本身的方法原则上可以克服这一限制。为了通过实验训练物理变换,研究人员经常依赖无梯度学习算法。而基于梯度的学习算法(如反向传播算法),被认为对于大规模DNN的高效训练和良好泛化至关重要。因此,出现了在物理硬件中实现基于梯度的训练的提议。然而,这些鼓舞人心的提议做出了排除许多物理系统的假设,例如线性、无耗散演化或梯度动力学可以很好地描述系统。克服这些限制的一般方法是在计算机上训练,即完全在数值模拟中学习。但是,在计算机上学习到的非线性物理系统通常不够准确,不能将模型准确地迁移到真实设备上。


技术要点:

基于此,美国康奈尔大学的Logan G. Wright(一作兼通讯)等人提出了一种使用反向传播直接训练任意物理系统来执行DNN的通用框架。作者引入称为物理感知训练(physics-aware training,PAT)的混合原位-计算机算法,它应用反向传播来训练可控的物理系统。正如深度学习通过由数学函数层构成的深度神经网络实现计算一样,这种方法允许我们训练由可控物理系统层构成的深度物理神经网络,即使物理层与传统人工神经网络层缺乏任何数学同构。作者为了证明其方法的普遍性,训练了基于光学、力学和电子学的各种物理神经网络,以实验性地执行音频和图像分类任务。


图 1:PNN 简介。a,人工神经网络包含操作单元(层):通常是可训练的矩阵向量乘法,然后是逐元素的非线性激活函数。b,DNN 使用一系列层,并且可以被训练以对输入数据实施多步(分层)变换。c,当物理系统演变时,它们实际上执行计算。它们的可控属性被划分为输入数据和控制参数。更改参数会更改对数据执行的变换。这里考虑三个例子。在机械(电子)系统中,输入数据和参数被编码为施加到金属板(非线性电路)的随时间变化的力(电压)。然后通过麦克风(示波器)测量受控的多模振荡(瞬态电压)。在非线性光学系统中,脉冲通过 χ(2) 晶体,产生非线性混合输出。输入数据和参数编码在输入脉冲的频谱中,输出从倍频脉冲的频谱中获得。d,与由可训练非线性数学函数序列构建的DNN一样,所构建具有可训练物理变换序列的深度PNN。在 PNN 中,每个物理层都实现了一个可控的物理函数,它确实需要在数学上与传统的DNN层同构。


实验结果:

图 2:使用宽带光学SHG实验实现的示例PNN。a,输入数据被编码到激光脉冲光谱中。为了控制宽带SHG 过程实现的变换,脉冲频谱的一部分用作可训练参数(橙色)。物理计算结果是从 χ(2) 介质中产生的蓝色(约 390nm)脉冲的光谱中获得的。b,为了构建深度PNN,SHG变换的输出用作后续SHG变换的输入,且各自具有独立的可训练参数。c, d, 在训练 SHG-PNN后,它以 93% 的准确率对测试元音进行分类。c,测试集上 PNN 的混淆矩阵。d,最终层输出光谱的代表性示例,显示了SHG-PNN的预测。


图 3:物理感知训练(PAT)。a,PAT是一种混合原位 - 计算机算法,用于应用反向传播来训练可控的物理参数,以便物理系统即使在存在建模错误和物理噪声的情况下也能准确地执行机器学习任务。PAT不是仅在数字模型(计算机)中执行训练,而是使用物理系统来计算前向传递。尽管a中只描绘了一层,但PAT自然地推广到多层。b,对于图2b中描述的实验性SHG-PNN,PAT和计算机训练的验证精度与训练epoch曲线比较。c,SHG-PNNs的PAT和计算机训练最终实验测试精度(物理层数增加)。误差线的长度代表两个标准误差。


图 4:不同物理系统的图像分类。基于三个物理系统(机械、电子和光学)训练PNN,以对手写数字的图像进行分类。a,机械PNN:由时间变化力驱动金属板的多模振荡对输入图像数据和参数进行编码的。b,机械PNN 多层架构。c,使用PAT训练的机械PNN的验证分类精度与训练epoch的对比。对于参考模型也显示了相同的曲线,其中喇叭实现的物理转换被恒等运算所取代。d,训练后机械PNN的混淆矩阵。e-h,分别与 a-d 相同,但用于非线性模拟电子 PNN。i-l,分别与 a-d 相同,用于基于宽带光学SHG的混合物理-数字PNN。基于机械、电子和光学的 PNN 的最终测试精度分别为 87%、93% 和 97%。


参考文献:Wright, L.G., Onodera, T., Stein, M.M. et al. Deep physical neural networks trained with backpropagation. Nature 601, 549–555 (2022).

DOI:https://doi.org/10.1038/s41586-021-04223-6


关于昊量光电:

上海昊量光电设备有限公司是国内知名光电产品专业代理商,代理品牌均处于相关领域的发展前沿;产品包括各类激光器、光电调制器、光学测量设备、精密光学元件等,涉及应用领域涵盖了材料加工、光通讯、生物医疗、科学研究、国防及更细分的前沿市场如量子光学、生物显微、物联传感、精密加工、先进激光制造等;可为客户提供完整的设备安装,培训,硬件开发,软件开发,系统集成等优质服务。

 

您可以通过昊量光电的官方网站www.auniontech.com了解更多的产品信息,或直接来电咨询4006-888-532。

 

本文章经光学前沿授权转载,商业转载请联系获得授权