英伟达放大招!算力杀器来了 CPU已落伍?-天天报道
堪称“算力之王”的近万亿美元巨头英伟达,又抛出“大杀器”。
5月29日,英伟达CEO黄仁勋在COMPUTEX大会上抛出多个重磅信息。其中最为引人瞩目的是,搭载256颗GH200 Grace Hopper超级芯片的新型DGX GH200人工智能超级计算机,堪称“算力杀器”。
(资料图)
据透露,谷歌云、Meta和微软是首批预计将获得DGX GH200访问权的客户,以探索其在生成型AI工作负载方面的能力。值得注意的是,算力的突破,将使得AI应用再次获得巨大提升,AI赛道有望向下一个节点迈进。
按照黄仁勋所言,“我们已到达生成式AI引爆点。从此,全世界的每个角落,都会有计算需求。”
256块GH200芯片组成
黄仁勋在29日的COMPUTEX大会上重大发布新型大内存AI超级计算机——DGX GH200超级计算机。
这款超算由英伟达GH200 Grace Hopper超级芯片和NVLink交换机系统提供支持,旨在为生成型AI语言应用、推荐系统和数据分析工作负载开发新一代巨型模型。
据了解,这款超算专为大规模生成式AI的负载所设计,由256块GH200超级芯片组成,拥有1 exaflop 的AI性能、144TB内存(是英伟达目前DGX A100系统的近500倍)、150英里光纤、2000多个风扇。需要提及的是,之前型号(DGX A100)只有8个GPU。
DGX GH200重达40000磅(约合18143千克),堪比四只成年大象的体重。
黄仁勋表示,“DGX GH200人工智能超级计算机,集成了英伟达最先进的加速计算和网络技术,以拓展人工智能的前沿。” 有海外知名媒体对此评价道,英伟达的新人工智能超级计算机将改变“游戏规则”。
黄仁勋透露,DGX GH200集成的GH200 Grace Hopper超级芯片已进入全面生产,英伟达方面预计DGX GH200将于今年年底投入问世。
不过至于价格方面,英伟达也暂未公布价格。谷歌云、Meta和微软是首批预计将获得DGX GH200访问权的客户,以探索其在生成型AI工作负载方面的能力。
同时,黄仁勋还宣布,英伟达也正在打造基于DGX GH200的大型AI超级计算机NVIDIA Helios,以支持其研究和开发团队的工作。其中采用4个DGX GH200系统、1024颗Grace Hopper超级芯片,每个都将与英伟达Quantum-2 InfiniBand网络连接,带宽高达400Gb/s,将于今年年底上线。
在今年3月21日,英伟达在GTC大会上,曾宣布“AI的iPhone即将到来”,并发布了与多个行业重要客户的合作成果,包括量子计算、计算光刻、数字孪生等,并且推出了新一代的超级计算机NVIDIA DGX AI,集成8个H100 GPU模组,大幅提升了单机算力。不难看出,此次DGX GH200超级计算机发布将进一步推升算力等级。
算力成为AI刚需
自去年年底OpenAI发布ChatGPT以来,生成式人工智能就成为热度居高不下的新趋势。该项技术需要通过超强算力来创建文本、图像、视频等内容。
在这一背景下,算力成为AI的刚需,而芯片巨头英伟达所生产的人工智能芯片对该领域至关重要。
此前,英伟达在AI训练端先后推出了V100、A100、H100三款芯片,以及为了满足美国标准,向中国大陆销售的A100和H100的带宽缩减版产品A800和H800。
其中,V100能加快 AI、高性能计算 (HPC) 和图形技术的发展。其采用NVIDIA Volta架构,并带有16 GB和32GB 两种配置,在单个GPU中即可提供高10个CPU的性能。
A100 采用NVIDIA Ampere架构,是NVIDIA数据中心平台的引擎。A100的性能比上一代产品提升高达20倍,并可划分为七个GPU实例,以根据变化的需求进行动态调整。A100提供40GB/80GB显存两种版本,A100 80GB将GPU显存增加了一倍,并提供超快速的显存带宽(每秒超过2万亿字节 [TB/s]),可处理超大型模型和数据集。
而H100则使用 NVIDIA NVLink Switch系统,可连接多达256个H100来加速百亿级 (Exascale) 工作负载,另外可通过专用的Transformer引擎来处理万亿参数语言模型。与上一代产品相比,H100的综合技术创新可以将大型语言模型的速度提高30倍,从而提供业界领先的对话式AI。
CPU已落伍?
值得注意的是,本次大会上,黄仁勋向传统CPU服务器集群发起“挑战”。他直言,认为在人工智能和加速计算这一未来方向上,GPU服务器有着更为强大的优势。
黄仁勋解释称,传统上电脑或服务器最重要的CPU,这个市场主要玩家包括英特尔和AMD。但随着需要大量计算能力的AI应用出现,GPU将成为主角,英伟达主导了当前全球AI GPU市场。
黄仁勋在演讲上展示的范例,训练一个LLM大语言模型,将需要960个CPU组成的服务器集群,这将耗费大约1000万美元(约合人民币7070万元),并消耗11千兆瓦时的电力。
相比之下,同样以1000万美元的成本去组建GPU服务器集群,将以仅3.2千兆瓦时的电力消耗,训练44个LLM大模型。
如果同样消耗11千兆瓦时的电量,那么GPU服务器集群能够实现150倍的加速,训练150个LLM大模型,且占地面积更小。而当用户仅仅想训练一个LLM大模型时,则只需要一个40万美元左右,消耗0.13千兆瓦时电力的GPU服务器即可。
换言之,相比CPU服务器,GPU服务器能够以4%的成本和1.2%的电力消耗来训练一个LLM,这将带来巨大的成本节省。
根据Trend Force的数据,2022年搭载GP GPU的AI服务器年出货量占全部服务器的比重接近1%,2023年在ChatGPT等人工智能应用加持下,AI服务器出货量有望同比增长8%,2022~2026年出货量CAGR有望达10.8%,以AI服务器用GPU,主要以公司H100、A100、A800(主要出货中国)以及AMD MI250、MI250X系列为主,而英伟达与AMD的占比约8:2。
基于IDC预测2026年全球服务器出货量1877万台、AI服务器的占比逐年提升1%,同时AI服务器中GPU的搭载数量逐年提升0.5个百分点、随着GPU产品迭代,GPU单价逐年提升2000美元,国金证券基于上述基础预测,2026年全球数据中心GPU市场规模有望达224亿美元。
为游戏NPC注入“灵魂”
值得注意的是,游戏一直是备受关注的一大AI应用落地领域,英伟达此次也在大会上宣布,推出面向游戏的定制AI模型代工服务NVIDIA Avatar Cloud Engine(ACE)。
据英伟达方面透露,ACE能赋予非玩家角色(NPC)更智能且不断进化的对话技能,中间件、工具和游戏开发者可使用它来构建和部署定制的语音、对话和动画AI模型。
其中包括:英伟达NeMo,使用专有数据构建、定制和部署语言模型;英伟达Riva,用于自动语音识别和文本转语音实现实时语音对话;英伟达Omniverse Audio2Face,用于即时创建游戏角色表情动画,以匹配任何语音轨道。开发人员可选择集成整个NVIDIA ACE for Games解决方案,也可仅使用需要的组件。
NVIDIA高管John Spitzer表示:“生成式AI有潜力彻底改变玩家与游戏角色互动的方式,并大幅提高游戏的沉浸感。”
相关报道
超级芯片已全面投产 AI巨头重磅官宣!英伟达概念爆了 这些公司回复有合作
放大招!9600亿美元芯片龙头推出重磅AI新品 A股“朋友圈”澄清“暧昧”关系
黄仁勋刷屏!英伟达要“跑”上万亿美元?
(文章来源:中国基金报)