AI NPC：实现通用人工智能的必由之路？-钛媒体官方网站

图片来源@视觉中国

文｜甲子光年科技产业智库，作者｜苏霍伊、刘杨楠，编辑｜王博

自从2014年Irrational Games解散以后，《生化奇兵（Bioshock）》系列制作人肯·列文（Ken Levine）就从公众视野中消失了。

后来，他开了一家新的游戏工作室，开始捣鼓一个名为“叙事乐高”（Narrative Legos）的神秘项目。

在他看来，游戏剧情可以被拆分为小组件，就像乐高积木一样，并将其不断重新排列，探索出不同剧情走向的方案。也就是说，在“叙事乐高”模式下的游戏，对每个玩家来说都是完全独特的，或者每次玩的时候都是不同的。

但是，这位知名的游戏制作人后来并没有通过“叙事乐高”模式打造出新游戏，他的团队也一度传出遭遇“产能地狱”。

这个想法不可行吗？

在CES 2024上，英伟达就展示了利用Avatar Cloud Engine（ACE）技术打造的最新成果，游戏中的人物纷纷“活”了起来，与其他角色甚至真人玩家一起对话交流，并根据对话内容做出动作。玩家每次进入游戏时，NPC（Non-Player Character，非玩家角色）都会谈论不同的内容，摆脱了剧本的束缚。

运用ACE技术生成的玩家与NPC之间的对话交互展示，动图来源：英伟达

其他巨头也没有闲着。2023年底，微软Xbox宣布与Inworld AI达成合作，将利用AI技术，为游戏中的NPC注入更多的交互力和生命力，从而提升游戏的沉浸感和体验感。在微软刚刚发布的2024财年第二财季（即2023自然年第四季度）财报中，游戏业务贡献的收入超过了Windows。

而在国内，当AI落地应用成为主语时，腾讯、网易、完美世界、百川智能、昆仑万维以及一些AI初创公司都把目光投向了游戏领域，且不约而同地关注到了NPC。

肯·列文在十年前的设想，正在成为现实。

纽约大学副教授朱利安·托格利乌斯（Julian Togelius）曾说：“游戏是AI的过去、现在与未来。”

游戏一直都是滋养AI的沃土，就像试验田一般，见证了AI领域的种种尝试与突破。也正是游戏的需求，催生了高性能显卡，为如今大模型的繁荣发展提供了“踏脚石”。

为什么游戏NPC会成为AI应用落地的焦点？

集多方矛盾与需求于一身的NPC

NPC几乎存在于所有游戏当中，但玩家已经不满足于现有NPC的表现。

微软Xbox援引Inworld AI的一项调查称，84%的玩家认为NPC在游戏中很重要，79%的玩家会与NPC进行互动，但有52%的玩家抱怨现在游戏内的NPC“只会重复对话”。

这与驱动NPC的经典技术——“状态机”或“行为树”有关。

在游戏AI"深度学习"阶段，会更重视对真实世界生物行为的模拟，从而产生更丰富的行为。而行为的背后则是一条条规则，规则越完备、越细致，游戏中的NPC就看起来更“聪明”。

同样，它们也有明显的弱点。例如在有限状态机的AI模式中，一旦玩家摸索出游戏设计者的“套路”，就能依据其逻辑总结出针对性策略。尽管这样能带来意想不到的有趣玩法，但也会让玩家抓住漏洞，研制出“偷懒”的方法违背了游戏的设计初衷。

以知名游戏《只狼：影逝二度》为例，玩家只要找到一个特定的位置，便可以基本无伤地击杀Boss（角色类型头目），这种操作方式也被玩家戏称为给Boss“修脚”。

而在《荒野大镖客：救赎 2》《巫师3：狂猎》《赛博朋克2077》等广受好评的游戏中，尽管NPC的总体上表现令玩家满意，但其背后还是依赖于丰富的游戏设计，相应的开发成本也极高。

例如，《荒野大镖客：救赎 2》中有超过1000个NPC角色，分布在6个章节的100多个任务中。每个NPC都有自己的歌手、美术作者和配音演员，这些NPC的制作耗时近8年、开发成本接近5亿美元。

《荒野大镖客：救赎 2》游戏截图

肯·列文尽管是一位资深的游戏制作人，但是当他准备通过“叙事乐高”模式打造新游戏时，也要面临开发团队的一切都需要“从零开始构建”以及“漫长的开发周期”。

在游戏行业中，“跳票”是一个常见的现象。为了打造一个更完美游戏，开发团队会在争吵、妥协和焦虑中努力推动进度向前，但是谁也无法保证游戏可以按时完成。有的从业者甚至认为，加班、延期是游戏研发的“必要之恶”，是创造出一款精品游戏的必经之路。

从需求侧来说，玩家越来越高的期待和日益增长的开发成本之间的矛盾，体现在了游戏NPC上。

从供给侧来说，第三波AI浪潮中有两条明显的研究主线——决策AI和生成式AI。如果说决策AI与生成式AI是实现通用人工智能（AGI）的必由之路，那么游戏NPC正是其重要的应用对象。

“随着底层模型的不断进步，AI生成内容日益丰富。这将进一步提升AI的两大能力，即智能决策与驱动能力，以及跨模态理解与生成能力。”腾讯AI Lab相关负责人说。

这两大能力，一方面可以直观在游戏NPC上体现，一方面也是各大AI公司（团队）在应用过程中需要证明和表现的。相比晦涩的论文和评选标准各异的榜单，游戏NPC在某种程度上，更能展现一家AI公司（团队）的应用落地能力。

2024年1月9日，百川智能发布角色大模型Baichuan-NPC，深度优化了“角色知识”和“对话能力”，并推出了“角色创建平台+搜索增强知识库”的定制化解决方案。值得注意的是，这也是百川智能发布的第一个垂类应用大模型。

为什么大模型公司会优先选择在游戏行业落地？百川智能技术联创Richard告诉「甲子光年」：“游戏是很多新技术的第一落脚点。此外，游戏也是较好的变现方式。”

《2023年中国游戏产业报告》显示，2023年国内游戏市场实际销售收入3029.64亿元，同比增长13.95%，首次突破3000亿元关口；用户规模6.68亿人，同比增长0.61%，为历史新高。

“如果能够在游戏领域取得成功，那么这些技术在其他行业应用时可能会形成降维打击。”Richard说。

由巨人网络前CEO吴萌创立的新公司MiAO，也在研究游戏NPC，其AI组负责人告诉「甲子光年」，当具有强大世界常识的大模型以及具有记忆能力、任务规划能力的通用智能体概念出现后，“能够生成游戏内容的AIGC”以及“能够理解游戏世界的智能NPC”是能直接想到的落地场景。

腾讯AI Lab认为，游戏在AI的发展历程中扮演了重要角色，主要是源于游戏环境的三大特点：首先，游戏具有明确的胜负与核心指标，便于测试和迭代AI性能；其次，在虚拟世界中获取AI训练所需的数据更便捷，成本更低、迭代效率更高，推进了监督学习和强化学习技术的发展；第三，丰富的游戏类型为AI研究提供了大量的测试环境，推动了智能体博弈和协作等前沿研究发展。

如何让NPC更拟人

如何让NPC更拟人？这个问题有了最新的回答。

英伟达在CES 2024展示的玩家与NPC自然交流的成果来自英伟达开发者平台的合作者Convai，Convai使用了ACE平台中的Audio2Face和Riva两大功能。在该场景下，玩家的语音输入被传送至Audio2Face的语音自动识别模型中，将语音转换为文本，放入大模型以生成角色的实时响应。之后，使用文本转语音模型（Riva）发出响应，生成动画模型以创建逼真的唇形同步，最后将动态角色进行渲染并传回至游戏场景中。

Avatar Cloud Engine细分功能

与微软合作的Inworld AI则是让文字、声音及图像成为相互训练的数据，并在以GPT-3为核心大模型的基础上，整合了多个大模型、音频模型以及30多个机器学习模型，打造了一个多模态开发引擎——“角色引擎”（Character Engine），着眼于构建一个模拟人脑的复杂系统。为了让用户和开发者快速构建并在游戏或应用中部署 AI 角色，Inworld构建了AI虚拟角色的生成平台——Inworld Studio，开发者无需任何代码，输入自然语言就能快速创建NPC。

角色引擎由角色大脑（Character Brain）、情境网格（Contextual Mesh）和实时 AI（Real-Time AI）组成，图片来源：Inworld AI

在ChatGPT发布之初，就有玩家尝试将其接入了部分游戏，希望实现和游戏NPC的“自然交流”。

但是，要想让NPC的表达更像人，模型的基础能力和角色扮演一致性非常重要。

模型的基础能力既包括模型的通用智能水准，还包含角色知识、对话能力、情节演绎以及逻辑推理四个专项能力。而强化这些能力的最佳方式是在预训练阶段通过高质量数据集进行针对性训练。

角色扮演一致性问题指的是，通用语言模型在角色“演绎”过程中，非常容易跳出“角色设定”变回“智能助手”或做出不符合角色人设的言行，即业界所说的OOC问题（角色言行偏离原有设定，如：古代人物谈论现代事物）。

为了解决这两方面的问题，百川智能角色大模型Baichuan-NPC通过高质量数据集进行针对性训练，并将思维链对齐技术引入到角色模型对齐中，使用带有思维链的数据构造方式和带有思维链对齐的强化对齐方法，双管齐下让模型的思考过程和思考之后的行动表现更接近人类，大幅提升了角色一致性。

Baichuan-NPC演示，避免角色言行偏离原有设定，图片来源：百川智能

国内创业公司MiAO近期则提出了一种名为LARP（Language Agent for Role Play）的开放世界游戏角色扮演智能体框架。LARP的重点是将开放世界游戏与语言智能体相融合，利用模块化方法进行记忆处理、决策以及从互动中不断学习。

MiAO的架构包含了一组较小的语言模型，每个模型都针对不同的领域进行了微调，以分别处理各种任务。这种设计为开发开放世界角色扮演游戏的语言智能体提供了新的经验和视角。

LARP的认知结构综述，图片来源：MiAO

MiAO AI组负责人告诉「甲子光年」：“给NPC建立人格，模拟思维、情绪和认知过程，让具有强大先验知识的语言模型做心理活动推演，再通过智能体的复杂任务规划和执行决策的能力，让NPC在一个开放世界模拟环境里产生社会活动，给玩家分配独特的任务，建立社会链接，影响数值结算，这是我们的一个研究方向。”

但是，如何平衡NPC的个性和游戏的通用规则呢？

MiAO的解决方案是——外挂的数据库和集体意识。世界观、游戏规则以及其它常识内容，将通过外挂数据库平等地分享给每一个NPC，而一些在运行时中由NPC个性化而产生的内容将通过集体意识传递，类似于墨水在水中渲开的方式。而NPC的独特个性则是由不同的指令以及属性来决定，NPC的个性和游戏的通用规则是相互影响又相对独立的关系。

“如果AI能在复杂策略游戏中学会类似于人的长期策略规划和协作能力，就可以代表多智能体决策最高水准。”腾讯AI lab相关负责人说。

目标：开放世界

虽然AI NPC的前景可观，但将大模型及相关技术集成到成熟的游戏研发环节，依然充满挑战。

游戏开发通常会涉及到各种非文字表述的标准化资产，如果游戏开发者想利用语言模型或者智能体做游戏内容生成，那么将游戏资产、运行信息合理地转化成语义表达将会成为落地过程中的问题。

面对无限扩展的开放世界，AI NPC要能够灵活适应各种复杂的环境。如果游戏已经运行了很长时间，AI NPC已经积累了一定的长期记忆，开发者如何让AI NPC在这种长周期情境下自我成长、持续进化也是一大技术难题。同时，现阶段语言模型的长上下文理解能力还有很大提升空间。

另外，高质量的AI工具和平台API调用费用产生的经济门槛，也限制了一些中小游戏开发者使用。

MiAO AI组负责人告诉「甲子光年」：“目前业界更多还从Prompt Engineering（提示工程）、Fine-Tune（微调）等模型层面去解决，涉及到系统设计整体解决方案的都挺少的。因为搞AI的和搞游戏的是两拨人，两拨人各自去理解对方的需求和坑都是有失真的。就我个人来看，行业缺的不是多强大的模型，而是解决方案。”

有的问题可以通过构造数据集进行模型训练来解决，有的问题则需要设计系统来解决，还有的问题得靠市场解决。

MiAO AI组负责人还提出了一个观点：“比起不够拟人，把NPC设计得太过拟人也是不合适的。游戏追求的是好玩，而不是你的NPC有多拟人。”

而决定游戏是否“好玩”，除了NPC的拟人程度外，游戏世界观的设定及情节线索的设置也是关键因素，在文生图、文生视频、文生3D之后，文生开放世界（text-to-openworld）也受到了业界的关注。

在去年12月举行的百度云智大会·智算大会上，AI游戏引擎初创公司RPGGO就展示了其研发的生成式AI游戏引擎——Zagii Engine。只需简单的文本输入，玩家即可用AI工具创作出一个完整的多人动态角色扮演剧本杀游戏。

长期关注“AI+游戏”领域的Monolith砺思资本投资人表示，看好利用大模型实现玩家与NPC的高质量交互，以及AI在游戏领域的应用，“AI的价值就在于它会扩大未来Gameplay（游戏性）的供给。如果这件事能实现，那么游戏的供给就会从完全的PGC到PUGC，甚至UGC，这将会对游戏行业造成巨大改变。”

AI NPC成为了现阶段AI在游戏中应用的焦点，但是从长远来看，“开放世界”才是AI与游戏结合的终极目标。

在生成式AI的大潮下，“开放世界”这个概念在游戏领域被再一次激活。「甲子光年」近期对话了数家从事“AI+游戏”公司的负责人，最后话题不约而同地转向了“开放世界”，不过“开放世界”并不仅仅局限于现在的“开放世界游戏”，而是类似《头号玩家》《三体》里的另一个平行世界。

“创造、健康、快乐”是百川智能创始人、CEO王小川根据马斯洛需求层次提出的三个落地方向。其中，创造对应生产力工具、健康对应医疗，快乐则对应一个平行于现实世界的“开放世界”。

“大模型让我们有了造人的可能。”Richard告诉「甲子光年」。

RPGGO也是致力于打造“开放世界”的一员。

RPGGO联合创始人李嘉英毕业于斯坦福大学，是个爱玩游戏的“95后”。去年，她毅然辞掉大厂的工作，创立了RPGGO，专注基于生成式AI的“text-to-openworld”。

李嘉英表示，RPGGO想要打造一个开放世界，搭建一个“把一句话变成一个世界书”的AI开放世界引擎，让游戏开发者和普通的内容创作者、游戏玩家，都能够利用这个引擎，将自己的想法变为一个世界观，构建平台让每个人都能拥有自己的网页，网页上是自己的AI游戏。

“可能大家的最终目标并不是游戏，游戏只是一个过程，一个落脚点。我真正想做的也不是游戏，而是开放世界，但我需要一个新领域下的落脚点。”李嘉英坦言。

「甲子光年」近期了解到，昆仑万维旗下Play for Fun游戏工作室自研的首款 AI 游戏《Club Koala》目前正处于高强度开发测试中，首次Beta版测试预计将于今年3月份展开，这款游戏将引入“拥有自我意识”的AI NPC。

《Club Koala》也有开放世界元素，游戏的一大核心组成部分就是游戏编辑器——Koala Editor。Koala Editor 面向的是没有开发知识和经验的普通玩家，编辑过程实现了完全零代码。Koala Editor 里还配备有完备的功能组件、素材箱这类辅助工具，提供创作资源帮助玩家快速构建游戏。

游戏行业对开放世界的追求，和当前全球AI企业苦苦追求的AGI终极梦想可谓殊途同归。

真正实现开放世界，几乎意味着AI已经能够像人一样，在需要想象力时刻无限发散思想；在需要精确解决问题的时刻收敛思维、力出一孔；在需要独立行动时自发搜索信息、寻找工具解决问题；在需要团队合作时自发结成社会组织。

这不正是AGI在虚拟世界的投射吗？

前途是美好的，但道路是曲折的。

Richard对AI未来的发展趋势有自己的理解，他将AI划分为四个等级：

L1，即模型，即AI具有一定泛化能力，能够初步解决一些通用问题；
L2，即智能体。该阶段，AI具有三个标志性能力：使用工具（use tool）、规划（planning）、长期记忆（memory）。例如，金融从业者每天都要根据股价波动实时调整投资策略，股价大涨他心情会变好，反之会很沮丧。但如果虚拟世界里，金融从业者没有这种自发的从外部获取信息的能力，便算不上一个鲜活的人。
L3，即类人智能体。AI会像人类一样有实时状态（stateful），能够针对不同情境发生的不同事件、人物给出不同的反应。从技术上看，开发者可能会在这一阶段为AI注入能量值、财富值、心情值等不同参数，“每一次玩家找到这个NPC，都能看到NPC不同的状态”。
L4，即社会化类人智能体。该阶段，AI能够像人一样和其他AI建立不同的关系，不同的AI会在整个社交网络中承担不同的角色，彼此合作形成社团等各类组织。

“现在大部分公司都还在模型阶段，而且模型也没做好。”Richard分享道。

目前，基座模型的能力依然限制着游戏中世界观和大量NPC的自由度，模型能力的提升依然带来无限想象力。

OpenAI创始人、CEO萨姆·奥尔特曼（Sam Altman）近期在达沃斯论坛上透露：“若GPT-4目前只能完成人类任务的10%，那么GPT-5预计能处理15%至20%的任务。”同时，他相信AGI会在“不久的将来”出现。

很多时候，技术的进阶只是变革的开始，还有很多技术之外的事情需要人类自己去厘清，还有很多路径需要人类自己去选择。

但路的尽头有一个确定的终点，至于如何抵达，李嘉英的回答是：“用技术把Magic做到极致。”