陈刚 程耀东 齐法制
中国科学院高能物理研究所
高能物理(也称粒子物理)是研究物质微观性质及宇宙起源的基础科学,不管是理论研究还是实验研究,历来都涉及大规模的科学计算与网络的挑战。就高能物理实验而言,其特点就是实验装置巨大,几乎每个实验都是国际合作。高能物理实验产生的海量数据需要高性能计算机进行处理,同时需要先进的网络在国际范围内进行数据交换。计算机网络技术为高能物理提供了重要支撑,同时高能物理也极大地推动了计算机网络技术的创新发展。
高能所从建所开始即引入了国内最先进的计算机用于高能物理计算。过去五十年,为应对计算和数据的挑战,高能所积极开展计算机网络技术研究,成为国内计算机、网络技术、信息安全的推动者,为我国高能物理科学计算及国内互联网发展做出重要贡献。本文将回顾数十年来高能所在计算机及网络方面的工作,展示我国高能物理计算与互联网的发展。
数据处理是高能物理实验不可或缺的重要组成部分。随着高能物理实验规模不断扩大以及计算机技术的发展,高能所经历了大型机、小型机、集群及云计算等几代技术更迭。
七十年代高能所建立后,高能所开始了对大型机的应用研究。当时世界上的主流计算机基本为大型机。为了支撑八七工程预制研究和北京正负电子对撞机设计时期的计算任务,1973年高能所采购了当时国内最先进的DJS-8(320)计算机,建立起基于国产晶体管计算机的科学计算环境。
七十年代后期,小型机开始得到快速发展。1978年,高能所部署了美国DEC公司生产的PDP-11 系列小型计算机,开始小型机应用的第一步。1984年,高能所引进了VAX-11系列计算机,用于北京正负电子对撞机工程数据处理。VAX-11是当时最先进的32位小型机,是PDP-11系列16位机的扩展版。1986年通过加入KERMIT通讯程序,实现了多台VAX计算机甚至与微型计算机之间的文件传输。1988年,又通过以太网连构建小型机集群系统。这一阶段是高能所第一代计算平台。VAX小型机在相当长一段时间内是北京谱仪BES实验数据处理与计算的主力平台(如图1)。
图1 VAX-11小型机集群
进入到九十年代以后,随着北京谱仪BES实验运行积累的数据增加,VAX计算平台能力越来越显不足,高能所开展RISC工作站计算平台研究,建立起HP RISC工作站集群,形成第二代计算平台。由于HP RISC工作站和DEC工作站均使用UNIX操作系统(HP的叫HP-UX,DEC的叫ULTRIX),这两种机器可以很好地整合在一起形成新的BES数据重建环境,同时UNIX系统提供了优良的X Window可视化界面,使计算机的使用友好性和效率大幅提升。该计算环境成为BES实验的关键支撑系统,一直沿用到2000年左右。
进入新世纪以后,高能所高能物理计算平台规模更快速度扩大,并开始研究以低成本实现高性能、可扩展的数据处理计算平台,PC集群应运而生,形成第三代计算平台。PC机性价比高,通过安装Linux操作系统实现计算环境从小型机向PC机的快速迁移。高能所因此成为国内最早开展Linux研究和大规模部署的机构之一。到2002年,高能所建设了4个独立的PC集群,分别为大型强子对撞机LHC、羊八井宇宙线观测站YBJ-ARGO、BESIII等实验提供服务。随后几年,高能所计算集群的规模迅速扩张,到2014年,计算集群规模跨入万核级,共有计算资源12600CPU核(如图2)。
图2 高能所高性能计算系统
高能物理数据处理作为一种典型数据密集型计算模式,对于存储系统和IO性能有很高的要求。2003年开始,高能所启动了并行文件系统的研究,并建立了国际上最早的基于Lustre的高能物理大型并行存储系统。在计算平台的建设过程中,存储系统从本地存储、NFS网络存储不断发展到目前的大型分布式存储系统,高能所基于磁盘、磁带等不同的介质构建了分级存储环境,满足百PB级的数据存储和长期保存。
随着高能物理实验规模变大,高能所也不断增加新的计算应用服务,高性能计算开始逐步受到重视。高性能计算是指以一种系统化的方法,在较短时间内利用大量计算及存储资源处理海量数据或完成海量计算。例如:加速器设计模拟、生物大分子结构分析、天体黑洞研究、理论物理格点QCD计算、粒子实验物理分波分析、基于深度学习的顶点重建算法等等。
2004年,高能所为生物大分子结构分析应用提供了高性能并行计算服务,这是高能所的首个高性能计算应用。2010年开始,增加了GPU计算节点,为粒子物理分波分析等应用提供异构高性能计算服务。
2006年,高能所与欧洲核子研究中心CERN签署了参与建设国际高能物理网格(WLCG)的合作备忘录,建立了数据密集型网格平台站点并成为WLCG二级中心。该二级中心支持的应用包括ATLAS、CMS和LHCb等三个高能量前沿高能物理实验研究,每年实验数据交换总量近10PB,为参加LHC国际合作的约13000人提供数据模拟和数据分析服务。2014年,高能所为BESIII实验引入DIRAC系统作为分布式计算的框架,构建高能所主导的国际分布式计算平台。很快,CEPC 和JUNO 实验相继接入DIRAC 系统并为用户提供分布式的计算和存储服务。
云计算被认为是互联网的第三次革命。从2012年开始,高能所基于虚拟化和容器技术先后建设了科学计算云平台和公共服务云平台,并在异地资源管理与共享、大规模作业调度技术等方面开展了深入的研究并取得较好的应用效果,并逐步建立了散裂中子源、高海拔宇宙线观测站等多个计算分中心,以满足各类高能物理实验的计算需求。
高能所与国际高能物理实验室有着广泛的合作关系,与国外同行的科研合作和国际交流对网络通讯的迫切需求,促进了我国广域网的蓬勃发展。
1984年,为了能高效地使用位于北京市木樨地的中国水利水电科学研究院的一台高性能计算机,高能所通过微波通讯远程连接到水科院的计算机并进行远程操作,这是高能所网络发展的起点。
二十世纪八十年代初,高能所参加了CERN的国际合作项目,当时迫切需要建立国际间的计算机通信连接,实现数据信息的共享。高能所利用当时中国唯一一条公开的北京与维也纳之间的通讯线路实现了与CERN的通讯。1986年8月25日,通过这条卫星线路向位于日内瓦的斯坦伯格教授发出了中国第一封电子邮件(如图3所示)。
图3 第一封国际电子邮件
随着中国科学工作者国际交流日益频繁,国际网络通讯变得非常必要。1987年,在CERN和七机部710所的协助下,借用710所到维也纳的专线把高能所计算中心的VAX785计算机连到了CERN的计算机网络系统中。1988年7月,高能所通过奥地利无线电公司的卫星链路,采用X.25 协议使VAX785成为CERN计算机网络中的一个远程节点机,这样在高能所计算中心开通了与CERN之间直接收发电子邮件、文件传输、远程登录的功能(如图4)。这个节点的开通为高能所的科学家们回国后继续进行国际合作和对外交流提供了极大方便。
图4 1986~1993年互联网大事记
1991年的中美高能物理合作会谈上正式提出建立一条从高能所到位于美国加利福尼亚州斯坦福直线加速器中心(SLAC)的64 kbps速率的计算机联网专线,以满足北京正负电子对撞机数据和软件传输的需要。1993年3月2日,高能所租用AT&T公司的国际卫星信道建立的接入美国SLAC国家实验室的64 kbps专线正式开通,成为我国部分连入Internet的第一根专线(如图5)。该成果获得中国科学科技进步三等奖。海外媒体曾经评价高能所建立的第一条64 kbps 专线接通国际互联网的意义,不亚于20世纪初詹天佑建立了中国第一条铁路。1994年5月高能所正式加入Internet,1994年8月专线改为通过海底光缆经日本KEK到美国,速率提升到128 kbps,并先后申请得到10 个C 类IP 地址。高能所由此成为中国最早的ISP,通过微波、电话线等连接多个单位,为1000多名科学基金负责人提供拨号上网服务,同时也为多个外国在京的企业和大使馆提供拨号上网服务。
图5 中美两国科学家1991年草拟的IHEP-SLAC联网设计图
在建立国际互联网专线之后,Internet最重要的一项应用WWW技术也迅速发展。1994年5月,高能所使用Linux操作系统,建立了域名为www.ihep.ac.cn的网站(如图6),至此中国第一台www服务器开始在高能所运行。
图6 中国第一个WWW网站
随着科学数据的增加,以及互联网开始逐步普及,高能所于2001 年建立了同国内运营商ChinaNET 的512 Kbps 网络链接,并于次年升级到10Mbps,并开通了与中国科学院计算机网络信息中心10 Mbps的连接,改善了高能所到科技网CSTNET和教育网CERNET的通讯能力。
为了进一步提高网络服务质量,2005年高能所计算中心与科学院计算机网络信息中心协商,将高能所到中国科技网的专线带宽提升到1 Gbps,同时建成了羊八井到高能所的155 Mbps网络专线,用于羊八井国际宇宙线实验数据的传输。
2006年,高能所牵头联合中方其它三个合作单位参与欧盟第六框架计划FP6下的EUChinaGrid 项目,该项目的主要目标是通过合作,实现中国与欧洲之间网格基础系统的互连和协同运行,推动网格在eScience领域的应用。2009 年起,在中国下一代互联网示范工程(CNGI项目)的支持下,高能所到科学院计算机网络信息中心的专线带宽升级到10 Gbps。2011年,建立了支持纯IPv6 的广域网链路,实现了高能所同CNGI-IPv6的高速连接。2012年,完成了包含高能所园区、大亚湾中微子实验园区、中国散裂中子源园区以及羊八井宇宙线观测站在内的科研信息基础设施建设和CNGI应用示范工程项目建设任务,并开展了SDN网络架构的研究与应用。此时,随着大亚湾中微子实验正式取数,由深圳大亚湾到高能所计算中心的150 Mbps 专线网络也建成并投入运行。
中国散裂中子源(CSNS)是国家“十一五”期间重点建设的首个十二大科学装置。为了提供与高能所北京本部的可靠网络通信能力,2015年9月建立了CSNS 到高能所的100 Mbps 专线。2018 年随着中国散裂中子源顺利通过国家验收,10月正式将CSNS到高能所的专线带宽升级至1 Gbps。为了进一步提升数据交换能力和分布式计算系统效率,2022年5月,CSNS到高能所的专线带宽升级到10Gbps。
高海拔宇宙线观测站项目(LHAASO)2018年2月开始正式取数。为了确保实验数据实时传输回高能所,2019年11月建成LHAASO到高能所的400Mbps专线,随着取数规模增大,2021年该专线带宽升级至2.4 Gbps。
2018年3月,为了实现WLCG高能物理实验数据的高效全球共享,高能所计算中心联合中国科技网、中国教育网成功加入LHCONE,支持IPv4 和IPv6,带宽均为10 Gbps,此时,高能所广域网出口带宽上升到40 Gbps。同时,高能所继续优化了国际网络链路和路由策略,联合LHCONE联盟成员开通了高能所到美国ESNET的LHCONE连接,使得高能所到美国各个站点网络性能进一步提升。从2019年1月开始,高能所到欧洲的通信路由,从原来经中欧海缆到欧洲GEANT,升级为中欧陆缆链路方案,从高能所到CERN的网络延迟减少了20-40ms,进一步提升了科学数据国际传输的效率。
高能所是我国较早确立网络安全技术研究方向的科研机构之一。网络安全与信息化是一体之两翼,伴随着信息技术在高能物理领域的应用和互联网的接入,网络安全问题开始出现并引起大家的重视。
1997年开始,高能所网络安全团队开始进行黑客入侵防范研究,取得一批国内领先的成果,这些成果曾获得中国科学院科技进步奖一等奖、国家科技进步奖二等奖,为国家培养了一批网络安全研究人才,而且实现了成果转化。
随着网络攻击方式逐渐增加,安全防护建设逐渐由点到面,高能所安全团队开始探索和研究体系化的安全防护。2013 年,安全团队更新并发布了《高能所信息安全体系》,该体系从信息安全工作小组构成、信息安全基础设施建设、安全规范和制度、安全技术手段等多方面、全方位地对高能所信息安全相关工作进行了阐述和规范。
高能所信息安全团队根据所内安全工作实际,研究设计了面向跨地域多园区、多大科学装置的网络安全运行服务平台(IHEP-SOC)。IHEP-SOC平台在安全数据分析和网络安全运营的基础上,提供了安全威胁情报共享能力,实现了多装置、多园区的安全工作协同化。基于此平台,安全团队持续开展包括DNS安全、WEB安全以及人工智能、情报管理、自动化应急响应等技术研发工作,形成了具有大装置和科学数据中心特色的网络安全学科方向和人才队伍,相关研究成果已经在国内多家大装置和科学数据中心得到应用部署。
高能所于2008年建立了全球高能物理计算网格(WLCG)的二级站点。高能所网格计算系统的主机和国内参加WLCG实验的物理学家(作为WLCG网格计算系统的用户)需要X.509证书进行身份认证。为了满足这一需求,高能所于2006年建立了自己的网格证书认证机构(IHEP CA),并且加入了全球网格认证联盟。IHEP CA签发的证书在国际网格计算环境中都是受信任的。IHEP CA 支持了WLCG 的四个实验,BELLE II实验,以及国内基于DIRAC分布式系统的BESIII,JUNO,CEPC 等实验用户。从2006 年至2020年,IHEP CA运行稳定,累计签发1000多个各类证书,有力支持了高能所物理计算的国际合作。
国内新一代高能物理相关研究每年将产生数百PB的数据。为应对计算与网络的新挑战,高能所计算中心启动了大数据和人工智能技术的研究,其中包括基于AI的实验装置自动化运行控制和数据获取技术、科学数据处理大型软件框架、数据压缩技术、数据分析技术以及网络优化技术研究等,并取得了阶段性成果。可以预见,大数据+AI技术将成为高能所新一代科学计算与网络技术新的发展方向。
量子计算是大规模高性能计算技术的突破口。量子计算在高能物理中的应用已经成为研究热门方向。量子计算有望在高能物理计算中体现出优势,将突破传统方法难以逾越的计算瓶颈,解决基础科学重大问题。2021年高能所将量子计算写入了研究所十四五发展规划,并启动量子计算模拟器、格点QCD和分波分析的量子计算方法等重大问题的研究,力争在十四五期间为量子计算打下坚实基础。
高能所的计算与互联网是国内高能物理实验科学计算、数据交换及国际合作的重要基础。几代人的努力使高能所的计算与互联网一直站在国内计算机技术应用领域的前沿,促进了国内科学计算与互联网技术的发展。作者衷心感谢高能所计算中心的所有同事及前辈所做出的贡献,感谢孙功星、李海波、石京燕、汪璐、曾珊等人提供了本文的部分内容,尤其感谢陈和生、许榕生、朱兰生、寿学俭、徐晓康、杨大鑑、于传松等老同志为本文提供了珍贵资料。
本文选自《现代物理知识》2023年增刊 YWA编辑
点击阅读原文,报名培训!
原创文章,作者:计算搬砖工程师,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/12/1cdfffc210/