逐浪大模型，国产GPU的机遇和挑战 | 钛媒体深度-钛媒体官方网站

伴随着巨大参数数量的大模型参与到人工智能的研究中，算力成为了成败的关键，而GPU则是决定算力大小的核心部件。

图片来源：视觉中国

“这是一个比互联网时代还大10倍的机会。”

在ChatGPT出现以后，科技界和各路风险投资机构普遍认为，真正的人工智能有了可以实现的路径，ChatGPT的推出是AI的“iPhone时刻”。2022年11月30日，OpenAI发布了聊天机器人ChatGPT。两个月之后，ChatGPT的用户量突破了1 亿。在ChatGPT之前，TikTok 达到1 亿用户用了9 个月，微信用了14个月，Instagram 用了2 年半，Twitter则用了5 年。瑞银分析师在报告中感叹道，“在互联网过去20 年的发展中，我们找不到哪款消费级互联网应用的用户增长速度比ChatGPT 更快。”

不过，应用层面的火爆只是这次AI浪潮中的一个头浪，ChatGPT背后的大模型技术，让人们看到了更多的可能性。

所谓大模型，是指具有非常大参数数量的人工神经网络模型。公开数据显示，到2020年时ChatGPT所使用的预训练大大语言模型参数GPT—3，达到了1750亿。

“当参数数量达到700亿时，人工智能就发展出‘涌现’的能力，意味着出现了某种程度的智能。”曾经在英伟达任职的石浩对钛媒体App表示，目前学术界解释不了“涌现”的原因，但ChatGPT的大模型训练是现在行业可以参考的唯一方向。“国内大模型的众多参与者，也只能按照这个路线‘依葫芦画瓢’，先把模型理解了，才能一步步进行调优。”

而伴随着巨大参数数量的大模型参与到人工智能的研究中，算力成为了成败的关键，GPU则是决定算力大小的核心部件。目前的算力市场，英伟达的产品几乎是无可代替的存在。当越来越多的国产大模型进入到追赶GPT的队伍中，国产GPU也迎来了行业的机遇和挑战。

英伟达押对了筹码

GPU为何能成为大模型算力基础设施中最重要的一环，还要追溯到十多年一次试验的巧合。

根据财新的报道，2012年，多伦多大学的研究员联合同学llya Sutskever与导师Geoffreytinton设计了一个深度卷积神经网络(CNN)。当时，训练这一神经网络需要庞大的CPU资源，甚至花上几个月时间。该团队最后使用了两张当时英伟达为大型PC游戏准备的GPU GTX580，结果训练不到一周便完成了。

事实上，巧合的发生来源于GPU特有的单元架构。

CPU 作为核心控制计算单元，高速缓冲存储器（Cache）、控制单元（Control）在 CPU 硬件架构设计中所占比例较大，主要为实现低延迟和处理单位内核性能要求较高的工作而存在，而计算单元（ALU）所占比例较小，这使得 CPU 的大规模并行计算表现不佳。

而GPU 架构内主要为计算单元，采用极简的流水线进行设计，适合处理高度线程化、相对简单的并行计算。随着 GPU 可编程性的不断提高，去掉或减弱 GPU 的图形显示部分能力，全部投入通用计算的 GPGPU（通用计算处理器）也应运而生。

llya Sutskever后来成为了OpenAI的联合创始人和首席科学家，他们所设计的网络被称为AlexNet。llya Sutskever称，“我一直深信训练数据集越大越好，成立OpenAI的目的之一，也是为了探究如何利用数据的规模。”此后，随着ChatGPT的训练模型的不断增长，GPU成为大模型算力的重要供给工具。

不过，在巧合之外，英伟达的GPU之所以能够在如今的人工智能领域，实现一家独大，主要是之前选对了方向。

石浩对钛媒体App表示，人工智能最早是由谷歌的人工智能深度学习系统——Tensorflow在2015年开创的。紧接着，英伟达将CUDA的生态迁移到Tensorflow上，与其兼容建立了人工智能早期的软件生态。但是由于谷歌的TPU(张量处理单元，计算芯片的一种）不对外开放，导致英伟达的GPU和CUDA软件生态越来越被行业认可。

与此同时，2015年前后PC游戏开始进入下行态势，英伟达选择聚焦人工智能领域，旗下负责游戏开发的工程师，也纷纷转型到人工智能领域的开放工作中。

“从2015年-2022年，英伟达的工程师积累了大量的人工智能试验方案，一些方案与英伟达的GPU是天生适配的。”石浩称，这对于初入人工智能的用户是非常好的一个方式，因为他们只需要买英伟达的产品，下载CUDA软件生态中的参考方案就能复现自己想要的结果。

而对比英伟达，GPU并行计算的另一个主要玩家——AMD则出现了“战略资源错配”。

“从2015年到现在，AMD实际看重的是CPU市场，其服务器CPU的市场份额也从最初百分之十几，上升到现在的40%。”石浩表示，但是随着半导体先进制程一路从28纳米走向12纳米，再到3纳米，工艺的升级就带来了计算成本急剧的降低。而CPU内部的计算资源大概只有10%，GPU则为90%。在目前这种情况下，受益最大的是GPU，AMD压错了方向。

受益于GPU暴涨的需求，英伟达的股价也一路水涨船高，最新市值超过了一万亿美元，是AMD的5倍多。

国产GPU，机会几何

根据市场调研机构Trendforce估计，2020年GPT模型处理训练数据所需的A100数量达到了2万张左右，未来ChatGPT商业化所需的A100数量将达到3万张以上。Trendforce指出，英伟达

DGX A100是业界大数据分析和A加速的首选，随着生成式A成为趋势，英伟达将从中受益。

同时，根据摩根大通的一份最新报告显示，英伟达将在今年的人工智能产品市场中获得 60% 的份额，主要来自于其图形处理器（GPU）和网络互连产品。英特尔和 AMD 也出现在了榜单上，但他们的收入百分比可以忽略不计，低于 1%。

而当英伟达成为大模型浪潮中的主要算力提供方时，国内诸如百度、阿里、华为这样的大模型参与者，将面临一个颇为棘手的境遇。

按照美国商务部2022年关于高端GPU的出口限令，中国只能向英伟达购买算力一致但传输速率只有A100三分之二的特供版芯片A800，且此后算力更强的GPU芯片都会被限制。在此情况下，国内的GPU厂商能够实现对英伟达产品的部分替代，成为了行业共同面临的问题。

目前，国产GPU 有两条主要的发展路线：分别为传统的 2D/3D 图形渲染 GPU 和专注高性能计算的 GP GPU。生态方面，国产厂商大多兼容英伟达 CUDA，融入大生态进而实现客户端导入。

其中，寒武纪旗下的思元370系列GPU产品，单精度浮点算力和半精度浮点算力分别为24TFLOPS和96TFLPOS，均超过了英伟达A100，但显存容量只有24GB，与英伟达最新的H100也还相距甚远。同样地，海光信息的海光8100、壁仞科技的壁砺104P等国产GPU也存在着相当的差距，处于持续追赶中。

“对于算力的需求量主要与模型参数量相关，大厂现在所做的通用大模型依然只能使用英伟达的产品。但是，垂类行业的大模型（金融、医疗等）或者参数量不像GPT那样大的模型，国产GPU的算力已经非常够用了。”

电子行业分析师袁琪对钛媒体App表示，目前国内某短视频平台参数量约为1000亿的大模型，就用了寒武纪的产品，做训练和推理。同时，该模型也使用了英伟达A100。最后，按照短视频平台的标准对于两个产品进行打分。

最终结果显示，英伟达A100得分是92分，寒武纪得分为87，这意味两者之间的表现已经相差不大了。

“后续随着模型对寒武纪芯片的定向调优完成，这个得分肯定还会往上走。”袁琪称，目前行业排名中，性能最强的是寒武纪的思远590，其次则是华为的昇腾910。这两者主要对标的是英伟达A100，国内大模型的训练和推理都可以用。

不过，在刚刚结束的GTC大会上，英伟达推出了基于新一代 GPU芯片H100的服务器，H100则采用的台积电4nm的先进制程。英伟达创始人黄仁勋称，该服务器相比A100服务器的速度提升了10倍，并可将大型语言模型的处理成本降低一个数量级。以GPT-3模型为例，目前使用的A100训练时长需要5天，而H100仅需19小时。

这意味着，下一代国产GPU能否跟得上英伟达的步伐，依然是一个问题。

算力压制下，国产大模型的破局之法

“实际上，对于算力和先进制程，大家看的比较笼统。”

袁琪表示，从市场的角度来看，GPU的计算资源、储存资源和通信资源一般会要求达到一个均衡的状态，以此来实现GPU更高的利用率。更为先进的制程工艺，虽然能够提高GPU单位面积的算力，但是随着大模型完成数据训练走到推理阶段，所需的算力将不再像训练阶段那么大，限制模型成本的就不是单位面积的算力，而是单位面积的存储。

以英伟达A100为例，该产品就有2个版本。这2个版本在计算性能上没有任何差别，但一个是搭载了40GB的显存容量，另一个是80GB。其中，80GB的A100，是OpenAI提出了需求才有的。也就是说，大模型后期对于显存的需求要比计算的需求要高。

按照袁琪的说法，随着大模型继续往前推进，对于计算单元的主要考验将不是算力，也不是先进制程，而是存储。

基于上述的技术路径，存算一体（Computing in Memory）的解决方案成为了提升大模型算力的另一条可行路径。

所谓存算一体，就是在存储器中嵌入计算能力，以新的运算架构进行二维和三维矩阵乘法/加法运算。阿里达摩院在2021年发布采用混合键合（Hybrid Bonding）的3D堆叠技术——将计算芯片和存储芯片face-to-face地用特定金属材质和工艺进行互联。在实际推荐系统应用中，相比传统CPU计算系统，存算一体芯片的性能提升10倍以上，能效提升超过300倍。

另外，存算一体路线下的存内计算方案中，存储单元和计算单元完全融合，没有独立的计算单元：直接在存储器颗粒上嵌入算法，由存储器芯片内部的存储单元完成计算操作。

以国内公司亿铸科技为例，基于CIM框架、RRAM存储介质的研发“全数字存算一体”大算力芯片，通过减少数据搬运提高运算能效比，同时利用数字存算一体方法保证运算精度，适用于云端AI推理和边缘计算。

利用存内计算方案，亿铸科技单板卡算力范围在1000TOPS以上，在较低成本、低功耗、低延退下，能够借着存算一体芯片，用较小的代价实现高算以上力，突破芯片大厂的生态壁垒。

存算一体之外，通过软件调度来提升硬件处理数据的效率，也成为了解决大模型算力不足的另外一种选择。

潞晨科技的创始人尤洋告诉钛媒体App，理论上，用多个低端芯片来代替英伟达的一个高端芯片是可能的。比如，假设每一个低端芯片算力是100TFLOPS，四颗芯片简单叠加就能得到400TFLOPS的算力。但是，在实际工作中，400TFLOPS的算力无法被完全发挥出来。因为数据在四个芯片之间要不断地进行传输和交互，一颗芯片的速度过慢就会拖累整体的效率，这就需要高难度的软件优化。

尤洋曾任新加坡国立大学教授，从事分布式计算、机器学习、高性能计算相关研究。2021年，尤洋创办了潞晨科技，试图通过分布式AI开发和部署平台，帮助企业降低大模型的落地成本，提升训练、推理效率。创办的18个月里，这家公司共计拿到了3轮融资。

事实上，根据一些公开的论文显示，阿里巴巴、百度和华为已经在寻求使用 A100、老一代 Nvidia 芯片 V100 和 P100 以及华为 Ascends （昇腾）芯片的各种组合方案。

在 3 月份的一篇论文中，华为研究人员展示了他们如何结合软件技术，通过仅使用华为的 Ascend 芯片而不使用 Nvidia 芯片，来训练其最新一代大型语言模型。研究人员在论文中写道，尽管存在一些缺点，但 PanGu-Σ（盘古）的模型在一些中文任务上达到了最先进的性能，包括阅读理解和语法挑战。

“所以，在对ChatGPT的追赶上，我认为不用过度悲观。”袁琪称，面对差距，腾讯的冷静态度是对的。这是一个非常新的东西，它是有颠覆性，但也有很多弊端。“纵观这么多年的历史，我们发现现在还没有任何一项技术，在短暂的落后之后，是永远跟不上的。”（应受访者要求，文中石浩、袁琪为化名，本文首发钛媒体App，作者 | 饶翔宇，编辑 | 钟毅）