研究背景
在过去的十年中,数十亿来自互联设备的传感器被用于将物理信号和信息转化为数字世界。由于有限的计算能力,集成到嵌入式远程设备中的传感器通常将原始和未处理的数据传输到其主机。然而,无线数据传输的高能量成本影响了设备的自主性和数据传输带宽。提高它们的能效可以开辟一系列新的应用,并减少它们的环境足迹。此外,数据处理将从远程主机转移到本地传感器节点。因此,数据传输将限于结构化和有价值的数据,这是为此目的所需要的。冯·诺伊曼架构将处理和存储分离,要求在神经网络中进行数据和信号处理或推理时,数据在两者之间来回传输。存储器和处理单元之间的数据通信已经占到科学计算所消耗能量的三分之一。为了克服冯·诺依曼通信瓶颈,人们正在探索内存计算架构,其中内存、逻辑和处理操作是并行的。存储处理器件特别适合执行向量矩阵乘法,这是数据处理的关键操作,也是机器学习算法中最密集的计算。通过利用存储器的物理层来执行乘法累加(MAC)操作,该架构克服了冯·诺依曼通信瓶颈。到目前为止,这种处理策略已用于求解线性和微分方程、信号和图像处理以及人工神经网络加速器等应用。然而,寻找这种类型处理器的最佳材料和器件仍在进行中。
成果介绍
有鉴于此,近日,瑞士洛桑联邦理工学院Andras Kis教授团队报道了一种集成式32×32矢量矩阵乘法器,该乘法器采用单层MoS2作为沟道材料,具有1024个浮栅场效应晶体管。在本文的晶圆级制造工艺中,实现了高良率和低器件间变化,这是实际应用的先决条件。统计分析强调了用单个编程脉冲进行多电平和模拟存储的潜力,允许该加速器使用有效的开环编程方案进行编程。本文还以并行方式演示了可靠,离散的信号处理。文章以“A large-scale integrated vector-matrix multiplication processor based on monolayer molybdenum disulfide memories”为题发表在顶级期刊Nature Electronics上。
图文导读
图1. 器件和矩阵的描述和表征。(a)连接成矩阵阵列的FGFET的三维渲染。(b)FGFET的横截面三维图。(c)存储矩阵配置的光学图像。(d)851个工作器件的IDS-VG迟滞曲线。(e)三维图显示了32×32芯片上的开和关电流映射。
本文通过使用单层MoS2作为沟道材料,利用电荷基存储器来实现存储计算。具体而言,本文制造了FGFET来利用2D半导体的静电敏感性。为了实现更大的阵列,将FGFET集成在一个矩阵中,可以通过仔细选择相应的行和列来定位单个存储元素。图1a和b分别显示了存储矩阵的三维渲染图和每个FGFET的详细结构。使用矩阵配置允许更密集的拓扑结构,并直接对应于执行向量矩阵乘法。存储器是由用栅极优先方法制造的局部2nm/40nm Cr/Pt栅极控制的。这使得能够通过原子层沉积来改善电介质的生长,并最大限度地减少2D沟道暴露的工艺步骤,从而提高良率。浮栅是一个5 nm的Pt层,夹在30 nm的HfO2和7 nm的HfO2(隧穿氧化物)之间。接下来,在HfO2上刻蚀通孔,电连接底部金属(M1)和顶部金属(M2)层。这是路由源极和漏极信号没有重叠所必需的。晶圆级MOCVD生长的MoS2被转移到栅极堆叠的顶部并刻蚀形成晶体管的沟道。最后,2 nm/60 nm的Ti/Au在顶部图案化并蒸发,形成晶体管的漏-源接触以及第二金属层。图1c显示了制造的芯片的光学图像,包含32行和32列,总共有1,024个存储器。
本文的存储器是基于标准的闪存。存储机制依赖于通过改变俘获层中的电荷数(ΔQ)来移动中性阈值电压(VTH0),即Pt浮栅。当高正/负偏置施加到栅极上时,能带对齐开始有利于从半导体到浮栅的电子隧穿进入/出去,改变了俘获层中的载流子浓度。通过取正反路的阈值电压之差来定义存储窗口(ΔVTH)。由于存储效应完全依赖于电荷基过程,闪存往往比依赖于材料的新兴存储器(如电阻式随机存取存储器和相变存储器)具有更好的可靠性和可重复性。图1d显示了为每个器件执行的IDS-VG扫描。该工艺的良率为83.1%,器件具有统计学上的相似性。相对较高的关断状态电流是由于在设置中使用的模数转换器缺乏分辨率。高分辨单器件测量证实了典型的关断状态电流在皮安量级。图1e显示了存储矩阵上的开和关电流分布。在VDS=100 mV时取开和关电流,形成两个不同的平面。开和关电流在整个矩阵中表现出良好的分布。器件具有统计上相似的存储窗口ΔVTH=4.30±0.25 V。
图2. 开环编程。(a)开环编程方案的两态操作示意图。(b)输出状态(wOUT)在线性刻度中的分布。(c)输出状态(wOUT)在log10刻度中的分布。(d)wOUT的log10值三维成像与器件位置和不同编程电压的关系。(e)经验累积分布函数(ECDF)与编程状态的关系。
这些器件的相似性促使对存储器的编程行为进行统计研究。在存储计算环境中,开环编程分析是基础。在编程大型闪存阵列时,标准的写入-验证方法可能过于耗时。对开环中存储状态的统计理解对于提高性能和速度至关重要。本文通过选择相应的行(i)和列(j)来独立激励每个器件进行实验。器件接口板中的模拟开关在所选的行(i)/列(j)中保持低阻抗路径,在其余行和列中保持高阻抗路径。这确保了电位差仅施加到所需的器件,避免了不必要的编程。出于同样的原因,本文将器件编程和读取分为两个独立的阶段。在编程阶段,选择相应的栅极线(行)和相应的源极线(列),并在栅极中施加参数为TPULSE和VPULSE的编程脉冲。由于该器件的隧穿特性,只需要两个终端就可以产生向浮栅中电荷注入所需的能带弯曲。脉冲后,栅极电压变为VREAD,该电压低到足以防止对存储器状态进行重新编程。在读取阶段,也连接漏极线,通过对漏极施加电压VDS来探测电导值。这个两阶段的过程是必需的,因为本文使用的是三端器件。因此,栅极和漏极共用同一行、因此,当栅极和漏极线接合时,整个行都是偏置的。如果在栅极中施加高压,当漏极线连接时,整个行将被重新编程,导致存储器中的信息丢失。图2a显示了这个两阶段编程过程的描述。对于随后的测量,本文使用VREAD=-3 V,VDS=1 V和TPULSE=100 ms。在每次测量之前,通过施加一个正的10 V脉冲来重置存储器,这使器件进入低电导状态。这种补偿方法使器件的编程可靠性提高了一个数量级。对一个比特进行编程时,每百万错误中有500个错误,而对擦除状态进行编程时,每百万错误中有一个错误。图2b和c显示了不同脉冲强度后存储状态的线性和对数分布。观察到在线性刻度上,脉冲幅度增加伴随着更高的存储状态值和更大的扩展。另一方面,通过分析状态值的对数,可以看到存储器具有定义良好的存储状态。因此,该存储器具有无需写入-验证算法的多值存储潜力,特别是在对数刻度上。图2d显示了整个芯片上状态的空间分布。观察到对于不同的编程电压,存储器状态产生一个恒定的平面值。最后,图2e显示了对数表示的经验累积分布函数(ECDF)。如前所述,这些结果支持多值编程的可能性,并表明存储元件可用于存储内存计算的模拟权重。
图3. MAC操作。(a)具有编程错误()的输出内存状态与编程电压(VPROG)的关系。(b)归一化yEXP与yTHEORY图,比较MAC操作的实验理论结果。
随着开环分析的完成(图3a),本文绘制了存储器状态()与编程电压(VPROG)的关系。本文定义了四个等分布的状态(两位分辨率),并将其编程为矩阵中用于向量矩阵乘法的离散权重。为了分析处理器执行向量矩阵运算的有效性,本文比较了(图3b)在几个点积运算上得到的归一化理论(yTHEORY)值与归一化实验(yEXP)值。对于yEXP=a×yTHEORY+b,实验点的线性回归显示为参数a=0.988±0.008和b=-0.129±0.003,阴影区域对应95%置信区间。理想的处理器应该收敛于a=1和b=0,置信区间收敛于线性拟合。在本文的情况下,处理器具有收敛于理想情况的线性行为,实验值具有较大的扩展和轻微的非线性。本文用存储器的非理想性和由于状态有限分辨率而产生的量化误差来解释这种行为。参数b的这种变化可以用yTHEORY=0处的固有跨阻放大器偏移和存储器漏电来解释,但它不影响观察到的线性趋势。因此,可以以合理的精度进行MAC操作。该操作用于执行各种类型的算法,例如人工神经网络中的信号处理和推理。
图4. 基于内存处理的信号处理。(a)用于不同滤波器(低/高通滤波器和恒等滤波器)的基于卷积的信号处理描述。(b)理论内核权重成像与转移到存储器电导的实验权重比较。(c)每个内核后仿真和实验输出信号的快速傅里叶变换(FFT)比较。
接下来,本文配置这个加速器来执行信号处理,以演示真实世界的场景和应用程序。对于信号处理,输入信号(x)与内核(h)进行卷积,得到处理后的信号(y)。根据内核元素的性质,可以实现不同类型的处理。在此,本文限制在三个不同的内核中,分别执行低通滤波、高通滤波和馈通。所有内核在一个处理周期内并行工作,证明了该处理器通过并行处理来解决以数据为中心问题的效率。可以并行地添加更多的内核,只受矩阵大小的限制。图4a显示了卷积操作和用于处理输入信号的不同内核。将负内核值编码为存储器电导值的策略是将内核(h)分成只有正数值的内核(h+)和负数绝对值的内核(h–),只编码与电导值(G)有直接关系的正数。处理完成后,将正内核(y+)和负内核(y–)的输出相减,得到最终信号(y)。图4b显示了使用前面描述的开环编程方案将原始权重与传递到内存矩阵中的权重的比较。为了简化传输,将每个内核的权重按其最大值归一化。观察到原始值和实验值之间有很好的一致性。接下来,为了验证处理的有效性,首先将输入信号(x)构造为不同频率的正弦波和。通过这种方式,可以很容易地探测不同频率下滤波器的行为,而不会产生过于复杂的信号。由于信号有正值和负值,因此信号幅度必须落在器件工作的线性区域内。因此,将VREAD=0时的信号范围从-100 mV限制到100 mV。图4c显示了模拟处理信号和实验信号的快速傅里叶变换。模拟和测量信号中的灰线是每个内核的快速傅里叶变换,为每个操作的预测行为提供了指导。这三种滤波器的实验过程与理论值以及原型滤波器相当吻合。
总结与展望
本文报道了在内存处理器中大规模集成2D材料作为半导体沟道。本文在开环编程中编程状态的表征和统计相似性方面证明了器件的可靠性和可重复性。处理器执行向量矩阵乘法,并通过执行离散信号处理来说明其功能。本文的研究方法可以让内存处理器获得2D材料的好处,并为用于物联网的边缘器件带来新的功能。
文献信息
A large-scale integrated vector-matrix multiplication processor based on monolayer molybdenum disulfide memories
(Nat. Electron., 2023, DOI:10.1038/s41928-023-01064-1)
原创文章,作者:计算搬砖工程师,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/12/06/43df85eac6/