随着机器学习模型变得更大、更复杂,它们需要更快、更节能的硬件来执行计算。传统的数字计算机正在努力跟上。
模拟光学神经网络可以执行与数字网络相同的任务,例如图像分类或语音识别,但由于计算是使用光而不是电信号进行的,因此光学神经网络可以运行速度快很多倍,同时消耗更少的能量。
然而,这些模拟设备容易出现硬件错误,从而降低计算的准确性。硬件组件中的微观缺陷是造成这些错误的原因之一。在具有许多连接组件的光学神经网络中,错误会迅速累积。
即使使用纠错技术,由于构成光学神经网络的设备的基本特性,一些错误也是不可避免的。一个大到足以在现实世界中实施的网络将过于不精确而无法发挥作用。
麻省理工学院的研究人员克服了这一障碍,找到了一种有效扩展光学神经网络的方法。通过在构成网络架构的光开关中添加一个微型硬件组件,它们甚至可以减少可能在设备中累积的不可纠正的错误。
他们的工作可以实现超快速、节能的模拟神经网络,其运行精度与数字神经网络相同。使用这种技术,随着光路变大,其计算中的误差量实际上会减少。
“这很了不起,因为它与模拟系统的直觉背道而驰,在模拟系统中,较大的电路应该有较高的错误,因此错误会限制可扩展性。本文使我们能够解决这些系统的可扩展性问题明确的‘是’,”主要作者RyanHamerly说,他是麻省理工学院电子研究实验室(RLE)和量子光子学实验室的访问科学家,也是NTTResearch的资深科学家。
Hamerly的合著者是研究生SaumilBandyopadhyay和资深作者DirkEnglund,后者是麻省理工学院电气工程与计算机科学系(EECS)的副教授、量子光子学实验室的负责人和RLE的成员。该研究发表在《自然通讯》上。
与光相乘
光学神经网络由许多连接的组件组成,这些组件的功能类似于可重新编程、可调的镜子。这些可调反射镜称为马赫-曾德尔干涉仪(MZI)。神经网络数据被编码成光,从激光射入光学神经网络。
典型的MZI包含两个反射镜和两个分束器。光进入MZI的顶部,在那里它被分成两部分,在被第二个分束器重新组合之前相互干涉,然后从底部反射到阵列中的下一个MZI。研究人员可以利用这些光信号的干扰来执行复杂的线性代数运算,称为矩阵乘法,这是神经网络处理数据的方式。
但是,随着光从一台设备移动到另一台设备,每个MZI中可能出现的错误会迅速累积。人们可以通过提前识别错误并调整MZI来避免一些错误,这样较早的错误就会被阵列中较晚的设备抵消。
“如果你知道错误是什么,这是一个非常简单的算法。但众所周知,这些错误很难确定,因为你只能访问芯片的输入和输出,”Hamerly说。“这促使我们研究是否有可能创建免校准纠错。”
Hamerly和他的合作者之前展示了一种更进一步的数学技术。他们可以成功地推断出错误并相应地正确调整MZI,但即使这样也没有消除所有错误。
由于MZI的基本性质,在某些情况下无法调整设备,因此所有光都会从底部端口流出到下一个MZI。如果设备在每一步都损失了一小部分光并且阵列非常大,那么到最后只会剩下一点点能量。
“即使有纠错,芯片的好坏也有一个基本的限制。MZI在物理上无法实现它们需要配置的某些设置,”他说。
因此,该团队开发了一种新型MZI。研究人员在设备末端添加了一个额外的分束器,将其称为3-MZI,因为它具有三个分束器而不是两个。由于这个额外的分束器混合光线的方式,MZI更容易达到它需要的设置,通过它的底部端口从外面发送所有光线。
重要的是,附加分束器的尺寸只有几微米,并且是无源元件,因此不需要任何额外的布线。添加额外的分束器不会显着改变芯片的尺寸。
更大的芯片,更少的错误
当研究人员进行模拟以测试他们的架构时,他们发现它可以消除许多妨碍准确性的不可纠正错误。随着光学神经网络变得更大,设备中的误差量实际上下降了——这与使用标准MZI的设备中发生的情况相反。
Hamerly说,使用3-MZIs,他们有可能创造出一个足够大的设备用于商业用途,并且误差已经减少了20倍。
研究人员还开发了一种专门针对相关误差的MZI设计变体。这些问题是由于制造缺陷造成的——如果芯片的厚度稍有错误,MZI可能都会偏移大约相同的量,因此误差都差不多。他们找到了一种方法来更改MZI的配置,以使其对这些类型的错误具有鲁棒性。该技术还增加了光学神经网络的带宽,使其运行速度提高了三倍。
既然他们已经使用模拟展示了这些技术,Hamerly和他的合作者计划在物理硬件上测试这些方法,并继续推动他们可以在现实世界中有效部署的光学神经网络。