时空动力学(Spatiotemporal dynamics)在自然界中无处不在。比如,反应扩散过程表现出有趣的现象,在化学、生物学、地质学、物理学和生态学等许多学科中都很常见。
对复杂的时空动力学系统进行建模,在很大程度上依赖于找到潜在的偏微分方程(PDE)。然而,由于先验知识不足且缺乏用于描述系统变量非线性过程的explicit PDE 公式,在许多情况下预测这些系统的演化仍然是一项具有挑战性的任务。
在此,中国科学院大学、中国人民大学、东北大学(美国)和 MIT 的研究团队,提出了一种新的深度学习框架——PeRCNN,该框架在循环卷积神经网络中强制编码给定的物理结构,来促进稀疏数据体系中时空动力学的学习。通过大量的数值实验展示了所提出的方法如何应用于有关反应扩散过程和其他 PDE 系统的各种问题,包括正向和逆向分析、数据驱动建模和 PDE 的发现。研究发现该物理编码机器学习方法表现出高精度、稳健性、可解释性和泛化性。
该研究以「Encoding physics to learn reaction–diffusion processes」为题,于 2023 年 7 月 17 日发布在《Nature Machine Intelligence》上。
论文链接:https://www.nature.com/articles/s42256-023-00685-7
研究背景
通过扩散和反应可以揭示图灵图案的自主形成机制。像许多其他系统一样,理解其复杂的时空动力学(受固有 PDE 控制)是一项中心任务。然而,许多未充分探索的系统的闭式控制方程中的原理定律仍然不确定或部分未知。机器学习以数据驱动的方式为科学发现上述系统开辟了新的途径。
最近,机器学习方法推动了数据驱动的科学计算的复兴。这很大程度上归功于深度学习模型能够从丰富的标记数据中自动学习变量之间的非线性映射。然而,植根于深度学习的纯数据驱动方法通常从大数据中学习表示并高度依赖大数据,这在大多数科学问题中往往是不够的。所得模型通常无法满足物理约束,其泛化性也无法得到保证。为了解决这个问题,基于物理的神经网络(PINN)利用人们对基础物理学的先验知识来实现小数据状态下的学习,成为了一种主要研究范式。
PINN 在广泛的科学应用中显示出有效性。特别是,该范式已被证明可以有效地模拟各种物理系统。然而,占主导地位的物理信息学习模型 PINN 通常代表一种连续学习范式,因为它采用全连接神经网络 (FCNN) 来连续逼近物理系统的解决方案。由此产生的系统预测的连续表示带来了一些限制。
与连续学习模型相比,离散学习方法具有将初始条件(IC)和边界条件(BC)以及不完整的 PDE 结构硬编码到学习模型中的明显优势。即使没有任何标记数据,这种做法也可以避免优化的不适定性。
有效、可解释和泛化的离散学习范式
因此,研究人员将建立一种有效、可解释和泛化的离散学习范式,可用于预测非线性物理系统,这仍然是科学机器学习中的一个重大挑战。
为此,研究人员提出了物理编码模型在网络架构中对先验物理知识进行编码,这与通过物理信息学习中常见的惩罚损失函数来「教」物理模型形成鲜明对比。具体来说,该模型有以下几个主要特点:
(1)与利用 FCNN 作为解的连续逼近器的 PINN 主流方法相比,物理编码模型是离散的(即,解是基于空间网格的并在离散时间步上定义),并将给定的物理结构硬编码到网络架构中。
(2)该模型采用独特的卷积网络(即 Π-block)来捕获系统的空间模式,同时由循环单元执行时间推进。这种独特的网络已经被证明(通过数学证明和数值实验)可以提高其非线性时空动力学模型的表达能力。
(3)由于时间离散化,该网络能够结合众所周知的数值时间积分方法(例如,前向欧拉法、龙格-库塔法)将不完全偏微分方程编码到网络架构中。
在该研究中,研究人员通过将所提出的网络架构应用于时空动力学科学建模(例如反应扩散过程)中的各种任务来展示其功能。
所提出的网络,即 PerRCNN。该网络的架构由两个主要组件组成:一个完全卷积网络作为 ISG 和一个用于循环计算的称为 Π-block(product)的新型卷积块。
图 1:PerRCNN 的架构示意图。(来源:论文)
由于学习模型的离散化方案,可以将系统的先验物理知识编码到网络架构中,这有助于提出适定的优化问题。给定 PDE 中的一些现有项,可以通过创建一个快捷连接(即基于物理的 FD 卷积连接)将这些项编码到网络中。这个基于物理的卷积层中的卷积核将使用相应的 FD 模板进行固定,以解释已知项。
这种编码机制的主要优点是能够在学习中利用不完整的偏微分方程。在数值示例中,证明了这种 highway 连接可以加快训练速度并显著提高模型推理精度。简而言之,基于物理的卷积连接是为了解释已知的物理而构建的,而Π-block 则是为了学习互补的未知动力学而设计的。
除了不完全 PDE 之外,边界条件也可以被编码到学习模型中。受 FD 方法思想的启发,研究人员将基于物理的填充(padding)应用于每个时间步的模型预测。
研究人员提出一种新颖的深度学习架构 PeRCNN,用于基于稀疏和噪声数据的非线性时空动力系统的建模和发现。
尽管 PeRCNN 在复杂系统的数据驱动建模方面显示出良好的前景,但由于离散系统的高维性,它受到计算瓶颈的限制,特别是当涉及到长期演化的大型 3D 空间域中的系统时。然而,这个问题将通过时间批处理和多图形处理单元训练来解决。
此外,当前模型植根于标准卷积运算,这限制了其对任意计算几何形状的不规则网格的适用性。这个问题可以通过在网络架构中引入图卷积来解决。
最后,由于 PerRCNN 网络是基于底层控制偏微分方程具有多项式形式的假设而设计的,因此它在建模独特的时空动力学方面可能能力较差或过于冗余,其控制偏微分方程是简约的,但涉及其他高级符号运算符,例如除法、sin、cos、exp、tan、sinh、log 等等。尽管 PeRCNN 在数据驱动的非多项式项 PDE 系统建模中取得了成功,但如何设计一个网络,正确地将有限数量的数学算子作为符号激活函数,以提高表示能力仍然是一个悬而未决的问题。在未来的研究中,研究人员将系统地解决这些问题。
原创文章,作者:计算搬砖工程师,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2024/02/06/87f7d69f49/