2023年9月14日,清华大学吴华强及高滨共同通讯在Science 在线发表题为“Edge learning using a fully integrated neuro-inspired memristor chip”的研究论文,该研究开发了一种全集成记忆电阻芯片,提高了学习能力,降低了能耗。
STELLAR架构中的方案,包括其学习算法、硬件实现和并行电导调谐方案,是通过使用忆阻器交叉棒阵列促进片上学习的通用方法,而不考虑忆阻器器件的类型。在这项研究中执行的任务包括运动控制、图像分类和语音识别。总之,该研究是迈向未来具有高能效和广泛学习能力的芯片的重要一步,有可能能够加速未来智能边缘设备的发展,以适应不同的应用场景和用户。
人类的学习能力在智力增长和快速适应未知场景或动态变化的环境中起着至关重要的作用。边缘人工智能(AI)应用也需要具有这种学习能力的硬件,以使相关设备能够适应新的场景或用户习惯。然而,深度神经网络(DNN)训练通常使用基于von Neumann计算架构和高精度数字计算范式的传统硬件实现。处理器芯片和片外主存储器之间广泛的数据移动会产生大量的能量消耗,并且占整个训练过程的大部分延迟。因此,尽管云计算平台可以处理这种高能耗的训练,它们的高能耗阻碍了在功率有限的边缘计算平台上实现学习。相比之下,基于忆阻器的神经启发计算通过其颠覆性的内存计算架构和模拟计算范式消除了这种广泛的数据移动。
忆阻器交叉棒阵列利用欧姆定律和基尔霍夫定律,可以在一个时间步内存储模拟突触权值,并在一个时间步内并行执行原位向量矩阵乘法运算。集成多个忆阻器交叉棒阵列和互补金属氧化物半导体(CMOS)电路的神经启发计算芯片可以轻松实现深度神经网络推理,并且具有很大的潜力,可以完全处理片上学习,而无需任何片外存储器的帮助。基于记忆电阻器的神经启发计算提供了大量的能源效率提高,使这种范式有望开发未来的芯片,使低功耗学习设备成为可能。
一些研究已经通过实验证明了使用忆阻器横条阵列进行原位权值调谐的学习,尽管使用软件或外部数字处理器来实现反向传播(BP)算法。然而,实现具有强学习能力和低能耗的完整全集成忆阻器芯片仍然具有挑战性。关键的挑战在于将BP算法映射到片上硬件的效率低下。首先,由于器件的非理想性,如器件可变性和非线性电导调制,在内存中实现BP算法需要昂贵的电导调谐操作和写入验证。其次,通过写入验证很难实现高效的并行电导调谐,这使得片上学习更加耗时和耗能。第三,在权重更新计算过程中需要的高精度数据处理操作需要较大的电路面积和高能耗,导致不可接受的开销。
该研究展示了一种基于记忆电阻器的神经启发计算芯片,该芯片能够实现完全的片上学习,为此提出了一种基于记忆电阻器的符号和阈值学习(STELLAR)架构。在此架构中,首次提出片上更新方案,无需验证即可调整忆阻器。与写验证方案相比,该方案节省了电导调谐操作中过多的读写成本,并且可以解决器件的非线性和非对称调谐问题,实现软件可比的精度。
其次,设计片上计算模块确定权值更新方向,该过程只涉及输入、输出和误差的符号,而不涉及它们的高精度格式。该设计减少了电路设计的负担,避免了片上学习的大量开销。第三,提出了一种周期并联电导调谐方案,其中电导调谐以逐行并联方式进行。该方案进一步降低了诱导能量消耗和延迟,并适应了记忆电阻器有限的续航能力。这项研究是迈向未来具有高能效和广泛学习能力的芯片的重要一步,有可能能够加速未来智能边缘设备的发展,以适应不同的应用场景和用户。
原创文章,作者:菜菜欧尼酱,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/12/14/bad600a6ca/