将英DB真人,伟达拉下马芯片公司出招

2024-09-18 03:34:15
浏览次数:
返回列表

  很难夸大英伟达在AI领域的主导地位。成立于1993年的英伟达最初在个人计算机图形处理单元(GPU)领域崭露头角。然而,是公司的AI芯片,而非PC图形硬件,推动英伟达跻身全球最有价值公司之列。事实证明,英伟达的GPU在AI方面也表现出色。因此,其股价自2020年初以来已经增长了15倍以上,收入从2019财年约120亿美元跃升至2024年的600亿美元;这家AI巨头的领先芯片如沙漠中的水一样稀缺且备受追捧。

  获取GPU对AI研究人员来说已经成了巨大的担忧,以至于他们每天都在思考这个问题。因为没有它们,即使拥有最好的模型,他们也无法尽情发挥,”谷歌DeepMind的AI数据负责人詹妮弗·普伦德基(Jennifer Prendki)表示。普伦德基依赖英伟达的程度较少,因为谷歌拥有自己的AI基础设施。但其他科技巨头,如微软和亚马逊,是英伟达最大的客户之一,并继续以极快的速度购买其GPU。据新闻报道,美国司法部正在就英伟达芯片分配和获取问题进行反垄断调查。

  英伟达在AI领域的主导地位,与机器学习的爆发一样,是最近的现象。但这种成功源自公司数十年来的努力,旨在将GPU建立为除渲染图形外对其他任务也有用的通用计算硬件。这一努力不仅包括公司GPU架构的演变,后者现在拥有能够加速AI工作负载的“张量核心”,还包括其软件平台CUDA,这为开发人员利用硬件优势提供了支持。

  “他们确保每个从大学毕业的计算机科学专业学生都掌握了CUDA编程,”Moor Insights & Strategy的数据中心首席分析师Matt Kimball说。“他们提供工具和培训,并在研究上投入了大量资金。”

  CUDA于2006年发布,帮助开发人员使用英伟达GPU的众多核心。这在加速高度并行的计算任务(包括现代生成式AI)方面至关重要。英伟达在建立CUDA生态系统上的成功使其硬件成为AI开发的最小阻力路径。虽然英伟达芯片供不应求,但比AI硬件更难找到的,可能是经验丰富的AI开发人员——而许多开发人员都熟悉CUDA。

  这给了英伟达一条深厚且广泛的护城河来保护其业务,但这并不意味着它缺少准备进攻的竞争对手,这些对手的策略各不相同。虽然像AMD和英特尔这样的老牌公司正在试图使用他们自己的GPU来挑战英伟达,但像Cerebras和SambaNova这样的初创公司已经开发出能够显著提高生成式AI训练和推理效率的创新芯片架构。它们是最有可能挑战英伟达的竞争对手。

  在图形芯片领域,AMD与英伟达的战斗已持续了近二十年。这是一场有时不平衡的竞争。在图形处理方面,AMD的GPU在销售和心智占有率上很少击败英伟达。然而,AMD的硬件有其优势。公司的广泛GPU产品组合涵盖了从笔记本电脑的集成图形到拥有1500亿个晶体管的AI专用数据中心GPU。该公司还早期支持并采用了高带宽内存(HBM),这是如今全球最先进GPU所必需的一种内存形式。

  “如果你看硬件……它与英伟达相比并不逊色,”Kimball说道,他指的是AMD的Instinct MI325X,这是一款英伟达H100的竞争对手。“AMD在这款芯片的设计上做得非常出色。”

  MI325X计划于今年年底推出,拥有超过1500亿个晶体管和288GB的高带宽内存,尽管其在实际应用中的表现尚待验证。MI325X的前身MI300X获得了微软的好评,微软使用包括MI300X在内的AMD硬件来处理部分ChatGPT 3.5和4的服务。Meta和戴尔也部署了MI300X,Meta在其最新的大语言模型Llama 3.1的部分开发中使用了这些芯片。

  AMD仍有一个障碍需要克服:软件。AMD提供了一个开源平台ROCm来帮助开发人员为其GPU编程,但它的人气不如CUDA。AMD意识到了这一弱点,并在2024年7月同意收购欧洲最大的私有AI实验室Silo AI,该实验室在使用ROCm和AMD硬件进行大规模AI训练方面有经验。AMD还计划收购ZT Systems,一家在数据中心基础设施方面拥有专长的公司,以帮助AMD更好地为部署其硬件的客户服务。打造一个能够与CUDA匹敌的对手绝非易事,但AMD正在全力以赴。

  英特尔的挑战与AMD相反。英特尔缺乏英伟达的CUDA和AMD的ROCm的直接匹配产品,但其于2018年推出了一个开源统一编程平台OneAPI。与CUDA和ROCm不同,OneAPI涵盖多个类别的硬件,包括CPU、GPU和FPGA。因此,它可以帮助开发人员在任何英特尔硬件上加速AI任务(以及其他任务)。

  然而,目前尚不清楚英特尔的下一代硬件版本究竟会是什么样子,这引起了一些担忧。Moor Insights & Strategy 创始人帕特里克·穆尔黑德 (Patrick Moorhead ) 表示:“Gaudi 3 非常强大。”但他表示,截至 2024 年 7 月,“还没有 Gaudi 4”。

  相反,英特尔计划转向一款雄心勃勃的芯片,代号为 Falcon Shores,该芯片采用基于区块的模块化架构,结合了英特尔x 86 CPU 内核和 Xe GPU 内核;后者是英特尔最近进军图形硬件领域的一部分。不过,英特尔尚未透露有关 Falcon Shores 架构和性能的详细信息,预计要到 2025 年底才会发布。

  可以肯定的是,AMD和Intel是Nvidia最具可信度的挑战者。它们在设计成功芯片和构建编程平台方面有着悠久的历史。但在规模较小、未经验证的玩家中,有一个脱颖而出:Cerebras。

  这家公司专注于超级计算机的AI,于2019年推出了Wafer Scale Engine,这是一块巨大的晶圆级硅片,拥有1.2万亿个晶体管。最新版本Wafer Scale Engine 3将这一数字提升到了4万亿个晶体管。作为比较,Nvidia最新最大的GPU——B200,仅拥有2080亿个晶体管。Cerebras围绕这个晶圆级怪物构建的计算机CS-3,正是Condor Galaxy 3的核心,该超级计算机将由64台CS-3组成,处理高达8 exaflop的AI计算任务。G42,一家总部位于阿布扎比的企业集团,计划使用该系统训练未来的前沿大型语言模型。

  “这有点偏向于特定的应用,而不是通用型的,”Bernstein Research的高级分析师Stacy Rasgon说。“并不是每个人都会购买这些计算机。但他们有一些客户,比如美国国防部和Condor Galaxy 3超级计算机。”

  Cerebras的WSC-3在大多数情况下不会挑战Nvidia、AMD或Intel的硬件;它太大、太昂贵、太专业化了。但它可能在超级计算机领域为Cerebras提供独特优势,因为没有其他公司设计晶圆规模的芯片。

  成立于2017年的SambaNova是另一家利用非传统芯片架构解决AI训练问题的芯片设计公司。其旗舰产品SN40L采用公司所谓的“可重构数据流架构”,由存储器和计算资源的模块组成。这些模块之间的连接可以根据需要进行动态调整,以促进大型神经网络的数据快速传输。

  Prendki认为,这种可定制的硅片在训练大型语言模型时可能会非常有用,因为AI开发人员可以根据不同的模型来优化硬件。没有其他公司提供这样的功能。

  SambaNova还通过其配套的软件栈SambaFlow取得了成功。Moorhead说:“在基础设施层面,SambaNova的平台表现出色。”SambaFlow可以分析机器学习模型,并帮助开发人员重新配置SN40L以加速模型的性能。虽然SambaNova还有很多要证明的地方,但其客户包括软银和模拟器件公司。

  另一家在AI硬件上有独特创新的公司是Groq。Groq的策略是紧密结合内存和计算资源,以加速大型语言模型对提示的响应速度。

  “他们的架构非常注重内存。内存与处理器紧密耦合。你需要更多的节点,但每个token的价格和性能简直疯狂,”Moorhead说道。“token”是模型处理的基本数据单位;在大型语言模型中,通常是一个词或部分词。更令人印象深刻的是,Groq的芯片——语言处理单元推理引擎——采用的是GlobalFoundries的14纳米技术,而这已经是比用于制造Nvidia H100的台积电技术落后几代的工艺。

  2023年7月,Groq展示了其芯片的推理速度,运行Meta的Llama 3 80亿参数大型语言模型时,每秒超过1250个token。这一表现甚至超过了SambaNova的演示,其推理速度超过每秒1000个token。

  但与这些竞争对手不同,高通将其AI战略更多地集中在特定任务的AI推理和能效上。AI基准组织MLCommons的创始成员、AI优化公司Krai的CEO Anton Lokhmotov表示,高通在关键的基准测试中显著提高了其Qualcomm Cloud AI 100服务器的推理能力。在ResNet-50图像分类基准测试中,这些服务器的性能从180样本/瓦提升至240样本/瓦,使用的硬件基本保持不变。

  在设备上处理本地AI任务而无需连接到云端的高效AI推理也是一个优势,Lokhmotov说。一个典型例子是微软的Copilot Plus PC。微软和高通与戴尔、惠普和联想等笔记本制造商合作,首批配备高通芯片的Copilot Plus笔记本电脑已于7月上市。高通还在智能手机和平板电脑市场占据强大地位,其Snapdragon芯片为三星、OnePlus和摩托罗拉等设备提供动力。

  高通还是AI驾驶辅助和自动驾驶平台的主要玩家。2024年初,现代旗下的Mobius部门宣布与高通合作,使用Snapdragon Ride平台——该平台是Nvidia Drive平台的竞争对手——用于高级驾驶辅助系统。

  超大规模数据中心(Hyperscalers)——那些部署硬件规模庞大的云计算巨头——与“大科技”同义。亚马逊、苹果、谷歌、Meta和微软都希望尽快部署AI硬件,既用于自身使用,也为其云计算客户服务。为加速这一进程,他们都在内部设计芯片。

  谷歌比竞争对手更早投资于AI处理器:该公司于2015年首次宣布的Tensor Processing Units(TPU)如今支撑着其大部分AI基础设施。第六代TPU Trillium于2023年5月宣布,并成为谷歌AI超级计算机的一部分,这是一项针对公司处理AI任务的云服务。

  Prendki说,谷歌的TPU为公司在追求AI机会时提供了优势。“我很幸运,不用费心考虑芯片从哪里来,”她说。然而,TPU的使用并没有完全消除供应紧张,因为谷歌的不同部门仍然需要共享资源。

  谷歌已经不再孤单。亚马逊拥有两款自研芯片,Trainium用于训练,Inferentia用于推理。微软拥有Maia,Meta拥有MTIA,而据传苹果也在开发处理其云基础设施中AI任务的硅片。

  这些超大规模数据中心的芯片并未直接与Nvidia竞争,因为他们不向客户销售硬件,但他们确实通过云服务提供硬件访问,比如谷歌的AI超级计算机、亚马逊的AWS和微软的Azure。在许多情况下,超大规模数据中心提供的服务既运行在自家硬件上,也运行在Nvidia、AMD和Intel的硬件上;而微软则被认为是Nvidia的最大客户。

  另一类竞争者的诞生并非源自技术需求,而是地缘政治现实。美国对AI硬件出口的限制阻止了芯片制造商向中国公司出售最新、最强大的芯片。作为回应,中国公司正在设计自有AI芯片。

  国内科技巨头所推出的加速器是Nvidia H100的替代品,然而,代工厂的产量问题据称限制了供应,此外,巨头还在销售“AI一体机”解决方案,旨在为中国企业提供本地化的AI基础设施DB真人,。

  为了绕过美国的出口管制规定,中国行业可能会转向替代技术。例如,中国研究人员在光子芯片方面取得了进展,这种芯片利用光而不是电荷来进行计算。“光束的优势在于你可以让两束光交叉,”Prendki说道。“因此,它减少了在硅芯片上通常遇到的限制,不能交叉路径。你可以使电路更复杂,且成本更低。”虽然光子芯片仍处于非常早期的阶段,但中国的投资可能会加速其发展。

  显然,Nvidia 并不缺乏竞争对手。同样明显的是,在未来几年内,没有一家竞争对手能够挑战 Nvidia,更别说击败它了。本文采访的所有人都同意,Nvidia 目前占据着无与伦比的主导地位,但这并不意味着它将永远排挤竞争对手。

  “听着,市场需要选择,”Moorhead 说。“如果到 2026 年,我无法想象 AMD 的市场份额会低于 10% 或 20%,英特尔也是如此。通常,市场喜欢三家公司,而我们有三个合理的竞争对手。”Kimball 表示,与此同时,超大规模公司可能会挑战 Nvidia,因为他们将更多的 AI 服务转移到内部硬件上。

  然后还有不确定因素。Cerebras、SambaNova 和 Groq 是众多初创公司中的佼佼者,它们希望通过新颖的解决方案蚕食 Nvidia 的市场份额。此外,还有数十家其他公司加入其中,包括 d-Matrix、Untether、Tenstorrent和Etched,它们都寄希望于针对生成式 AI 优化的新芯片架构。这些初创公司中可能有许多会失败,但也许下一个 Nvidia 会从幸存者中脱颖而出。

  *免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

  以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至,我们将安排核实处理。DB真人,DB真人,

搜索