仲夏时节,国防科技大学的“天河”大楼里,机房内长达数十米的机箱整齐排列着,指示灯明暗交错,发出高速运转的低沉“嗡嗡”声。这就是我国六度称雄全球超级计算机500强榜单,让“中国速度”震惊世界的“天河二号”。此时,作为“天河二号”副总设计师的肖立权正如片刻不停闪烁的指示灯,带领团队攻关新一代高性能计算机,向新的“中国速度”发起冲锋。
“走别人没有走过的路”
1997年,博士毕业留校后的肖立权成为国防科技大学计算机学院计算机研究所的一名科研人员。从那时起,他就与巨型机一起成长,参与了“银河”“天河”高性能计算机多代机型的研制过程,从一个普通的科研人员一步步成长为今天国防科技大学超级计算机团队的核心骨干。
“走别人没有走过的路,太难!但我喜欢挑战!”这是肖立权时常挂在嘴边的一句话。20世纪末,大规模计算机系统中通常采用的电互联技术传输速率低且易受干扰,成为我国研制千万亿次级超级计算机路上的一块“绊脚石”。如何搬开这块“绊脚石”?用光互联替代电互联好像是唯一的最优解。研究所将这一任务交给了肖立权。2003年,受领任务后的肖立权立即将科研准星瞄向了该技术难题。然而,按照自己思路做出来的系统根本跑不起来。解决思路一次次提出,但又一次次被推翻。某一天,正在做实验的肖立权突然冒出一个想法:“是不是数据传输有问题?”灵光乍现,他找到了解决问题的“钥匙”,随即逆向思维反推,最终找到症结所在。
这一刻,我国光互联技术在大规模计算机系统中得到有效验证,为后续该技术在超级计算机系统中的应用奠定了坚实基础。此后,肖立权马不停蹄,瞄准这一技术领域,拿下了一只又一只“拦路虎”,解决了光互联替代电互联的系列技术难题,成功研制出我国首台采用光互联技术的并行计算机互联通信系统。
2010年11月,“天河一号”凭借优异性能登上世界超算500强榜首,中国超算首次问鼎世界超算桂冠,五星红旗飘扬于世界之巅;2013年6月,“天河二号”轻松摘夺世界超算500强桂冠,我国超级计算机研制达到世界领先水平……2015年11月,“天河二号”六次问鼎世界超算500强,“中国速度”继续领跑世界。
“只有掌握自主核心关键技术,才能在国际上掌握发言权”
作为“天河一号”“天河二号”的副总设计师,这些耀眼成绩的背后,是肖立权瞄准世界高性能计算机技术前沿,不懈探索创新的丰硕成果。高速互连通信是决定大规模并行计算机系统实用效率的关键,美国对中国严格封锁高速互连技术转让。当时,“天河一号”在国内首次创新性地采用了“CPU+GPU”异构融合体系架构,其内部数万个CPU和GPU需要通过互联通信系统实现信息交换,难度可想而知,组织并全面负责互联通信系统自主设计研制任务的肖立权经常铆在试验一线,从原理验证到工程实践,一个环节都不放过。团队在他的带领下,开展关键技术、核心技术攻关,成功将“天河一号”送上世界超算第一的宝座。
短暂的喜悦过后,肖立权又开始了紧张的工作,在原有基础上,他带领团队进行了10个月的“封闭攻关”,“天河二号”高速互连通信系统性能得到提升,是当时国际商用互联系统的两倍。它可以把上万颗微处理器联系起来,共同解决同一个计算问题,解决了高效互联中“微处理器越多效能越低”的世界难题。
一台超级计算机系统好比一个大城市,互联通信系统就是城市的公路网,路由器就是立交桥,网络接口就是主干道出入口。肖立权带领项目组在校外进行了长达一年的封闭设计工作,自主研制出互联通信系统最核心的两块芯片:路由器和网络接口。依靠自主创新,掌握了属于自己的核心关键技术。这是“天河二号”在发展迅猛、竞争激烈的世界超算领域长时间保持领先地位的主要原因。“我们参加世界排名并不仅仅是为了第一。世界超算500强榜单其实是一个交流平台,只有在国际上有了声誉,别人才愿意和我们交流。”肖立权深知,只有自立自强,掌握自主核心关键技术,才能在国际上掌握发言权,让世界听到来自中国的声音,让中国更好地了解国际前沿发展趋势。
眼下的这个暑假对肖立权和团队来说,等于不存在。他正忙着带领团队全力投入新一代高性能计算机的研制攻关中,他的目标是摘取“超级计算机的下一顶皇冠”。
《光明日报》( 2019年08月11日 02版)