首页 实时讯息

心智观察所:独家对话|奇异摩尔祝俊东:破解AI算力基础设施瓶颈,互联大有可为

【对话/ 观察者网 心智观察所】

AI大模型对于超大规模算力集群的依赖,已然成为当代通识,尽管其中的GPU这一组成要素已被近乎奉上神坛,但算力集群的表现,依然极大程度上取决于其他软硬件要素的综合集成与优化,这一基本特点,正是中国产业界面对外部遏制的破局关键。

从大模型算法结构创新,到通信协议等软件层面打通异构混训,再到超大规模集群网络互联架构的软硬件创新,大量原始创新成果正在中国产业界涌现。

日前,心智观察所与奇异摩尔联合创始人、产品及解决方案副总裁祝俊东进行了一次深入交流。

这家定位于以互联为中心,为超大规模AI计算平台提供高性能互联解决方案的厂商,依托Chiplet和高性能RDMA技术,在这一领域走出了一条新路:

心智观察所:很高兴能有机会和您交流。说起AI大模型训推,我们知道在硬件上除了加速卡,网络互联架构也至关重要,能否请您先谈谈对目前技术趋势的观察?

奇异摩尔祝俊东:最近这几年,AI大模型确实发展很快,我们可以看到整个网络训练规模其实在不断增长。海外大模型训练集群规模已经从万卡级增长到10万卡乃至20万卡了,从国内来看,训练规模其实也比较大了,尽管没有那么高的单卡算力,但我们也看到了一个很好的发展趋势,包括现在涌现出非常火的DeepSeek。所以不管是国内还是国外,其实对于大模型的训练现在都是在快速发展的一个阶段。

在谈AI大模型算力集群前,我们先来看传统数据中心是怎么样的,它的网络架构相对比较简单,通用计算网络的话更多是一个多租户体系,服务上千万甚至更多的用户,共用一个云端数据中心。现在AI大模型的特点则是把一个非常大的集群用来服务于数量有限的大模型训练任务,这就对于算力硬件之间的互联提出了非常高的要求。比如传输带宽上,从以往100G/200G,现在在向400G/800G乃至1.6T演进,整个数据交换的规模如果是一个10万卡集群,那不管是我们讲北向Scale Out(网间互联)的网络,还是说南向Scale Up(GPU互联)的网络,都要做大量的数据交互,因此AI算力集群网络的性能、规模以及它的复杂性都是指数级上升。

从推理的需求来看,也在发生变化。过去单卡单用户或者单卡多用户的方案很流行,但最近一段时间我们看到推理系统的规模也在变得更大,像DeepSeek的云端推理集群已经到了几百卡的规模甚至上千卡。多机之间组成超节点(HBD)的方案正在快速增加,它对于scale up网络的要求非常高,这就是我们看到特别是在云端AI互联架构的一些发展。

心智观察所:我知道奇异摩尔是一家Chiplet和互联技术见长的企业,对于当前大模型训推的技术趋势,你们有什么样的回应?

奇异摩尔祝俊东:现在大家更多会讲集群算力,从集群算力来讲的话,我们可以把它分为几个层面。最微观的层面当然还是计算芯片本身,从芯片本身来说算力当然是越高越好,但你应该知道随着摩尔定律放缓,芯片本身的算力密度增长趋势也在放缓,所以各家大公司类似AMD、Intel不约而同采用Chiplet技术来把芯片做得性能更高、更复杂,在这个层面也就是片内互联,奇异摩尔会提供比方说Chiplet互联芯粒2.5D/3D IO Die、Die2Die IP,把芯片内部更多计算单元连接起来。这是第一个层面,通过这种方式让单芯片算力保持持续增长。

第二个层面就是刚刚说到的超节点,你可以理解成数据中心里面一个小的机柜集群,它通常由几台不同的服务器来组成一个小规模但是超高带宽的集群。这里面就会涉及到Scale Up的网络,英伟达这样的厂商可以自己做,但是对于其他厂商来说,这一块是一个相对比较大的短板,奇异摩尔可以提供一种GPU片间互联的Die(又名NDSA-G2G),通过这种方式帮助其他厂商用我们的技术把片内互联转成超节点之间的互联,这是第二个层面。

再往上第三个层面,就是大模型的训练和推理,特别是训练层面,你还是要构建更大规模的集群对吧?这就需要我们所说的智能网卡。AI训推集群比方说10万张卡,中间有大量的跨节点数据交互,它对网络数据交换性能要求非常高,所以我们另外一个产品就是基于AI原生的智能网卡,可以提供非常高的带宽,作为国产网卡替代主流国外厂商的高性能网卡。我们通过这三个层面的技术能力,可以为国内算力集群用户提供端到端互联架构解决方案,从片内到片间到网间。

心智观察所:RDMA(远程直接内存访问)技术也是当下算力集群网络的热门概念,能否再展开分享一些这方面的信息?

奇异摩尔祝俊东:这里面有几个方面,首先是性能,比如带宽、延时以及数据传输效率,我们通过高性能RDMA引擎能够达到800G传输速率、几百纳秒的延时,从性能来说是非常好的;第二呢是因为只有点对点的性能是不够的,因为特别是大规模训练的时候,其实有非常高的复杂网络需求,比如容易产生拥塞,而在我们的产品里引入了新的拥塞监测以及处理算法,能够极大提高拥塞处理效率;第三个是所谓的多路径传输,因为在复杂网络环境需要从多条路径传输,我们对于多径传输引入了优化算法,可以自动选择最适合的路径进行传输,对于常见的乱序问题,我们的产品引入了乱序重排的算法,可以满足网络对于乱序恢复的需求。通过这些技术就可以在有损大规模网络里有效部署RDMA方案,让十万卡甚至以上规模集群达到95%甚至更高传输效率。

心智观察所:AI的新技术生态要形成内生活力并不容易,您在与AI芯片厂商、系统集成商和终端用户的互动中有哪些经验和心得?

奇异摩尔祝俊东:如果把这个问题的情境放到AI基础设施范畴来说,我们会发现,过去其实一个项目里分工是非常明晰的,系统厂商、服务器厂商、计算芯片厂商和网络芯片厂商,其实大家有非常明晰的标准也好,分工界面也好,大家在自己的角色内根据标准把东西做好,原来是非常简单清晰的。但是现在,我们发现这个边界正在模糊化,也就是说算法厂商需要去关心硬件是怎么做的,那云厂商或者说集成厂商我需要知道算法是怎么做,硬件厂商也会希望知道算法是怎么来运行的,我们需要知道GPU怎么做的,GPU供应商反过来也一样,所以这个边界其实正在打破。

比如DeepSeek在整个算法、集群建设、底层协议的优化和通信的优化上,他们其实做了很多的工作,这些端到端的优化被证明是非常有效的。这件事情其实在其他的厂商也在发生,奇异摩尔通过产业链协同合作的方式和其他厂商共同优化大模型的基础设施底座。

心智观察所:新生态您觉得会走出来一条怎样的演化路径?

奇异摩尔祝俊东:这里面可能有两种类型吧,第一种类型就是以英伟达为代表的端到端闭环,垂直一体化,他自己做全部技术栈,那第二种类型就是形成一个开放的生态,其实除了英伟达以外,大家都在做一些开放的标准和协议,出现了越来越多的组织,比如UEC,UAlink,UCIe,国内也有不少开放联盟在推进。

心智观察所:能否请您介绍一下与复旦大学合作的3D IC项目“芯斋”?我注意到介绍资料里说28纳米工艺实现了相当于先进制程的性能。

奇异摩尔祝俊东:对于这个项目,我们和复旦做的是存算一体计算架构,因为现在其实计算集群里算力并不是唯一的瓶颈,甚至不是最大的瓶颈,存储墙和互联墙同样严峻。因此通过存算一体来解决数据传输的效率问题是一个非常有意义的提升手段。存算一体的最终极目标当然是完全颠覆冯诺依曼架构,不过近期的探索比如芯斋,其实是基于近存计算的范式。它大概的思路是下面的底座集成了所有对外的交互接口以及大容量的片上缓存,然后在上面3D堆叠很多不同种类的计算Die,相当于上面是计算,下面是存储。因为是通过3D封装来互联的,所以带宽延时以及功耗都是传统芯片的几分之一,在同等制程下至少能够提供5倍以上的性能提升。

心智观察所:沿着这个思路,您觉得短期内能看到的性能提升上限大概在什么地方?

奇异摩尔祝俊东:应该这么来说吧,现在的国产制程和海外大体上差两代左右,我们通过这种方式,差不多可能追接近一代或者一代半,也就是说可能会差半代到一代。如果未来我们能够实现真正的存内计算的话,那是有可能接近甚至超过现在利用传统范式做的SoC。

心智观察所:很振奋的评估,最后一个问题,除了大模型训练推理之外,您还看到了哪些新兴AI应用场景的潜力?

奇异摩尔祝俊东:我觉得可能对于我们公司来说,原来互联技术还是以在云端数据中心场景应用为主,但看看英伟达最近推出的DGX企业AI平台,其实现在边缘端的系统里互联要求也越来越高、规模越来越大,特别是现在大家都在自己做DeepSeek开源模型的本地部署,这个在企业市场其实有非常大的应用前景,这类系统对于带宽实时性的需求也都非常高。

从更广泛的视角来看,不管是个人设备终端,然后包括汽车也好,或者是现在非常火热的具身智能方向也好,这些系统都带来了更多的实时联网数据交互需求,所以在这个层面上来说,未来边缘设备会具备智能并且它需要跟周边的物理世界进行实时沟通,这些我觉得会是一个非常大的应用市场。

原来已经在联网的或者未来更多的联网数据,将产生实际使用价值。

本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。

相关推荐