文 | 某肉食动物
2020年6月23日的清晨,笔者是在朋友圈的轰炸中醒来的,大家关注的重点是,日本研制了6年,多次改变路线的E级超算“富岳”,拿下了今年的Top500超算榜首。
这也是时隔近10年来,日本富士通公司的超级计算机再次登顶Top500超级计算机榜首,上一次要追溯到2011年11月,同样是来自富士通公司的“京”超级计算机,以超过每秒1亿亿次浮点数的算力,夺得当季Top500冠军。
有的人看到了日本重新拿到Top500冠军就又开始了吹嘘,“日本科技依然强劲,日本科技没有失去这30年,日本的信息技术产业仍然优秀,中国自己研制纯自主超算芯片就是个错误,直接买ARM服务器芯片搞集群就好了。”对此,笔者想聊一聊自己作为一个旁观者的看法。
六年磨一剑的非主流超算
“富岳”超级计算机,是2005年前后立项的日本超级计算机计划当中的后一个阶段(前一个阶段就是“京”超算,京本身就代表了这台机器的目标算力是每秒10的16次浮点运算),于2014年正式立项,2019年开始在“京”超级计算机的原场地开工建设。目标是E级超算,也就是在完工之后,每秒算力达到百亿亿次级。
目前“富岳”的建设已经告一段落,并提前投入防治新冠病毒的相关研究当中,整台超算使用了152064颗来自富士通公司设计的48(52)核A64FX超算芯片,共有7299072核心,而且富士通公司放弃了长期使用的SPARC架构,改为基于ARM架构的深度优化版本,在整个Top500当中可谓凤毛麟角,本季榜单中500台当中仅有4台ARM架构超算(“富岳”系列占3台),这也是历史上ARM架构超算第一次获得Top500,并获得了HPCG,Graph500和HPL-AI这三个榜单的冠军,并且在针对人工智能优化跑分的HPL-AI上第一次达到了E级算力(1.3E,每秒130亿亿次计算)。
从SPARC到ARM,日本人做出了那些改变
由于当年采用了独门独户的SPARC架构加上设计上存在诸多问题的维纳斯CPU,占据了864个机柜的“京”,实际使用效率在80%左右,这次日本人选择了以ARM为基础架构,在此基础上使用了52个核心,学习了中国的申威26010众核处理器的主要设计思路,并且引入了2017年正式发布的SVE(可伸缩矢量扩展)指令集,使得CPU在进行大规模矢量运算时得到较大的加成。
维纳斯CPU(官方名称“SPARC64 VIIIfx 8C”),是建立在富士通自家的45纳米制程的基础上,推出于2009年,但毕竟以日本本土的市场,富士通早已无力支持芯片制造业务的继续迭代。转入台积电20纳米制程的SPARC64 XIfx 32C,其单节点功耗则达到了400瓦级别,也就是说如果按照2015年初的想定,使用该芯片制造E级超算,其功耗将会达到400兆瓦级别,所以,在ARM的加持下,他们弄出了A64FX,以期能大规模节能增效.
可以由上表看出,富士通A64FX芯片的算力在相比10年前的前辈涨了20多倍,但是单节点的功耗只提高了29%,这当然得益于进步飞速的芯片制造业,但仅仅依靠这个是不可能使“富岳”的性能超过”京”100倍.所以,超算部署密度也要变得更高.不过日本人的关注点其实主要还是在AI使用效率上,所以做出了很多独特的工作.
SPARC64 VIIIfx 8C维纳斯结构图
A64FX结构图
A64实物
AI特化的A64FX体现了哪些日本特色
在A64FX上,为了应对超大规模数据的并发访问,在每颗芯片旁同时封装了4堆HBM2内存,共计32颗32G,HBM2的特点就是高带宽,高位数,和酸爽的价格(每G内存报价高达9-16美元),此前主要运用在高端独立显卡和专业AI芯片上,而完全体的“富岳”在HBM2这一项技术上就至少花费掉上亿美元.
由于豆腐(Tofu-D)网络的加持,A64FX的Linpack效率还是达到了双机柜原型84.75%,商用6机柜集群85%,半系统80.86%,预估整个系统的效率应当在80%左右,比上一代的超算们平均高出5-6个百分点.
豆腐-D系统是一种建立在芯片级的6维度网络互联体系(6-D tours/Mesh),但是其实际带宽仅有约40.8G/s,相比较为流行的CCIX和infiniband在带宽上不具有优势,但是日本人充分利用了其延迟低的特性,降低了节点间数据传输的复杂度.
豆腐-D 网络系统
总之,整个A64FX的设计思路就是,一切为了高速,一切为了AI.这也在HPCG榜上体现的非常到位,大部分超算系统跑HPCG包,至多2000T左右的成绩,而“富岳”跑出了13300T,是第二名的6倍多,这也体现了其存储读写性能极其优异。
超算的效率才是问题的核心
“京”超算当初的第一阶段只建设了672个机柜,未能达到设定的每秒1京次的算力(即10的16次方),所以后续建设的时候增建到了864个机柜,88128颗SPARC64 VIIIfx 8C”维纳斯”,而为了能在同一片场地上尽可能获得更大的性能增幅,在“富岳”的一个机柜里,整整集成了384颗A64FX,单机柜算力从当初的13T增加到了今天的约1个P,也就是说,当初”京”864个机柜干的活,“富岳”上只需10-12个机柜就可以干完了,而我们今天看到的参加Top500的“富岳”,其实只完成了一半的建设量.所以完全体的富岳是个什么样子还是值得期待的,正如有的网友所说,日本人知道自己的东西不如中美,乘着疫情期间,拿半成品出来跑个第一漏个脸对他们来说还是件值得高兴的事.
“京”超级计算机
“富岳”超级计算机
相比之下,我国的神威太湖之光也曾在Top500上长期霸榜,而且至今依然保持第4的位置,且在单节点算力上至今与“富岳”不相上下,都在3万亿次每秒左右,但是太湖之光是2016年的霸主,“富岳”则是2020年的霸主,“富岳”是吃了整整4年的红利的情况下,但全系统功耗仍然比预定计划书上全系统功耗30-40兆瓦高出了一大截,到了57-58兆瓦。不得不说,从功耗控制方面来说,“富岳”已经失败了.
换句话说,如果2016年的我国在超算建设上不计成本,是可以用蛮力把神威太湖之光的算力堆砌到E级水平的,为此付出的代价是,整台超算的功耗达到了惊人的功耗125-130兆瓦左右,相当于一个大型火电机组发电量的5分之一,每年烧掉上亿人民币的电费, 这是明显与中国E级超算计划书当中多快好省的宗旨相违背的,毕竟我国E级超算验收指标之一就是功耗在35兆瓦左右
套用各大军事论坛里常见的“找爹党”的习惯,我们也可以给“富岳”和A64FX各自找个中国爹,毕竟申威26010和A64FX两者的结构设计上还是有非常多共通点的,比如都采用了多片互联+同构大小核结构,不过申威26010的4个管理核本身是有计算能力而A64FX的4个管理核却没有,且申威设计的时代,HBM内存技术并不成熟,当时只有AMD的顶级显卡吃了一波螃蟹,却也因为封装于芯片旁边而非常容易损坏.
“富岳”内部层级结构示意图
“富岳”CMU实物图
尽管A64FX使用了ARM架构和SVE指令集,我们依然可以看出他的设计思想依然是多片互联+大小核分开的方式,而与申威26010不同的是,A64FX的管理核心是无法参与计算的.这也就导致了双方在一些细节上互有得失.没有HBM存储的申威在数据吞吐上表现较差,这也是彼时的江南计算所没有能力解决的事情.当时的江南所在力所能及的范围内给每个申威26010配上了板载的32G DDR3-2133内存颗粒,和A64FX上的HBM2存储颗粒规格一样,但是受限于各方面原因,吞吐性能远远弱于后者.suo
“富岳”能有多大的商业化价值?
由于截止目前,“富岳”项目已经花费了1300多亿日元,远远超出当初的预计,因此,近日,开发商富士通公司果断上架了一款基于“富岳”技术的商用服务器,富士通超算FX700。
我们毫不否认,A64FX作为ARM架构超算芯片确实性能拔群,在和友商的服务器级ARM芯片相比毫不逊色,但是,FX700的双节点报价高达4155300日元(约合人民币275000元),而且每个计算单元从2个芯片压缩到1个芯片.使得其价格成本相比超算界广泛使用的英伟达V100差了整整一个数量级,,更别说性能更强一截的A100了.
富士通超算FX700
此外,名古屋大学已经采购了一台迷你版本的6机柜版本“富岳”,这台迷你版“富岳”的性能也接近当年京超算的65%,而规格上只有京的100分之一.这台超算在Top500榜单中目前排名第36.
而日本本土究竟能买多少套类似的迷你型超算,确实是个问题,毕竟要知道在Top500榜单中,高端主要是美国的cray公司(毕竟美国的三台大家伙全是他家定制的),中低端则是有中国三剑客(联想,曙光,浪潮),三剑客卖出了500台当中的300多台.而除去这台“富岳”之外,另外29台日本超算的算力仅占总算力约7%,更体现了日本超算业界,虽有富士通这样的资深厂家,却改变不了整个国力停滞的事实.NEC,东芝,日立,这些曾经在超算界响当当的名字,已经逐渐凋亡,没有养分的土地即使长出了花朵,也未必能结出果实,在连续30年脱实向虚的大背景下,传统的工程运算即使和AI广泛融合又能支撑起多大的需求呢,富士通早已是独木难支罢了,当代超算更多的是作为一种基础设施.只看中美两个国家的,上榜超算就占据了总数的68%,达到了340之多,其中中国更是以226台保持绝对数目第一,这是中美两国整个行业不断前进的动力.日本失去的不止是整个超算行业,而是整个互联网时代。但新一轮的竞争才刚刚开始。
E级超算的建造将会是真正的战场
目前,全球各国已经决定建造的E级超算已有8台之多,美国能源部将会为三个主要的国家实验室各采购一台E级超算,中国的三家超算巨头最后谁会笑到最后还未曾可知,而日本的“富岳”已经施工过半投入使用,欧盟也在努力制造2台E级超算.
一般来说,对于百亿亿次级的超算,其功耗目标在30-40兆瓦是一个比较理想的目标,而谁能在这个功耗上利用自己所能搞到的一切资源去建设超算,就成了摆在全世界的超算专家面前的课题了.而排名前十的超算当中只有排第七的selene的单位功耗算力超过了20T/KW,距离满足E级超算建设所需要的25-33T/KW的预定目标还有不小的的差距.
全套采用英伟达技术上线的Selene超算,目前排名第7
美国能源部将投资超过15亿美元,将会建立三套E级超算,El Capitan,Aurora和Frontier,都部署于美国能源部(DoE)旗下的三座国家级实验室.
而中国的三个高性能超算制造商,中科曙光,国防科大,江南计算所,去竞争2台E级超算的拨款,另一家公司失败者可能将会采用全商业运营的方式去建设.从2016年到2020年,中国国内的半导体产业取得了一定的进步,把国产代工工艺从28纳米制程初代工艺迭代到了14纳米制程Finfet工艺,国产的SSD和DDR4内存颗粒也相继进入市场,相比2016年可以在性能上给国产E级超算以更大的助力.
欧洲国家的目标则是在2023年以前建立两套类似系统,其中一套会是欧洲自己的方案.加上我们已经深度剖析的日本超算,计划表上就有至少8台E级超算等待建设.
在笔者写下这篇文章的时候,仿佛想起近20年前,联想拿出当时世界排名第14的深腾6800,那台超算的算力是4万亿次(4Tflops),从4万亿次到百亿亿次,十几年来的进步不可谓不快.这也奠定了我们当今一切数字生活的基础设施.而今天在国内能接触到的商用超算其实也远远超过了神威太湖之光,未来已来。
PS:本文参考了Top500,国家超算无锡中心,富士通,申威/江南计算所,华为,日本RIKEN等公司和学术机构的公开资料,同时感谢清华大学的马明同学和北京科技大学的齐冬冬老师提出了大量的意见和建议.
作者简介
某肉食动物 / 工科废宅一枚
半导体和航空航天旁观者
抓别人文章,放自己收款码,真的好吗
感谢支持,有来信要求删除的都删了;业余人工挑选整理,希望大家能多多支持!