根据TheInformation的最新报道,英伟达的最新人工智能芯片Blackwell在数据中心的启动过程中出现了新一轮的延迟问题,令一些其最大客户感到不安。消息人士透露,配备Blackwell芯片的首批机架在交付时竟遭遇了过热和芯片间互联故障等诸多问题。虽然此类缺陷在新型芯片的发布初期并不罕见,但对于微软等客户的数据中心计划则造成了不小的延误。
为了应对这一系列问题,微软以及亚马逊网络服务(AWS)、谷歌和Meta等巨头最近选择减少对Blackwell GB200机架的订单。更加令人担忧的是,一些客户已开始静候更新版机架,预计要等到下半年才会有货,甚至考虑购买英伟达的旧款AI芯片。尽管英伟达一直建议通过机架最大化芯片性能,但部分客户仍可能选择单独购买Blackwell芯片。
英伟达曾期望Blackwell芯片在1月的季度内为其带来数十亿美元的收入,进而使公司的数据中心芯片收入从2024年的475亿美元跻身约1500亿美元。然而,即使延迟并未对英伟达造成惨重打击,对于客户而言,这已给最大的云服务提供商和顶尖对话式AI开发商带来了沉重压力。毕竟,他们急需打造超强的计算集群,以在竞争中占据优势。尽管这些公司也在研发自家的替代方案,但仍高度依赖于英伟达的芯片。
英伟达声称,Blackwell芯片在能效上的表现是其前代Hopper芯片的四倍,然而由于数据中心能源的短缺,云服务提供商们对新芯片的期望极高。每个巨头客户在Blackwell机架上的订单都超过了100亿美元,像鸿海和纬创等承包商负责将这些芯片组装成大型机架,芯片则由台积电生产。
由于多颗高功耗芯片的组合复杂性,这些机架体型庞大,重达一辆本田思域,甚至还需要水冷而不是传统的空气冷却。大多数AI开发商和数据中心服务商从未接触过水冷的大型服务器阵列,因而在管理订购数量与放置地点时需谨慎行事。原本微软计划在凤凰城的数据中心安装至少50,000个Blackwell芯片的GB200机架,但由于延迟问题,OpenAI索要旧款的H200芯片以便填补计划中的数量空缺。
至关重要的是,微软预计将在3月安装配有12,000个Blackwell芯片的GB200机架,这个数字仅为最初计划的四分之一。同时,微软还计划在今年晚些时候购买GB300版的Blackwell机架。英伟达于去年年底开始交付这些机架,尽管因为设计缺陷导致最初三个月的延误,而在后续的实施中,客户依旧对机架的过热情况表示担忧。如若英伟达无法解决这些问题,未来机架的性能恐难以达到其承诺的标准。返回搜狐,查看更多