对话超参数:Agent诞生于游戏最终会走进生活平博PINNACLE
复杂性科学的奠基人布莱恩阿瑟总结:「新技术诞生于已有的技术组合。」
超参数科技成立于 2019 年初。时间上,是如今被称为上一代 AI——即「模式识别」,浪潮顶峰的尾巴。泡沫尾随其后。那时候,OpenAI 和 DeepMind 还专注于用强化学习 RL(Reinforce Learning) 教 AI 玩游戏。优化 LLM 输出的核心方法 RLHF 也诞生于彼时。
当下,在 Scaling Law 边际效应递减的时候,技术界又将目光投回了强化学习 RL。于是,Scaling Law+ RLHF 成为目前最受关注的技术组合之一。
超参数创始人刘永升是腾讯围棋 AI「绝艺」、王者荣耀 AI「绝悟」项目负责人。他也是在用 RL 教 AI 下棋、玩游戏中,对 AI 产生了信心。「像训练一个小朋友一样,看到 AI 从什么都不会,到慢慢学会各种本领……最终看到 AI 做出人类做不出来地动作,冲击感太强了」。
也是最初对于 AI 的信心,让他和团队从腾讯出来,成立了超参数。这之后,外界对 AI 信心,从顶峰降至谷底,又迎来了 2.0 的高潮。
在大模型出来之后,聊起游戏 AI 时,不时会听到新生代的创业者,将超参数定义为「上一代」。而市面上,的确很少听见这家公司的声音。
最近,极客公园和刘永升做了一次交流,请他讲了讲从 RL,再到 LLM+RL 一路走来做的事情,正在推进的 AI- Native 游戏项目,还有他对游戏 AI 的看法。
极客公园:LLM出现以来,人们开始讨论AI对游戏领域带来变革,你观察到这个领域里出现了怎样的变化?
一个是能不能通过 LLM 和 AIGC,用更低的成本产生更多差异化的内容,目前能看到生产各种素材的尝试。另外一条是沿着 GameAgent 的路线,能不能让游戏里面的 Bot、NPC 变得更有生命感。
以前,我们通过强化学习的方式,能让游戏里的 Bot 变得很厉害。但是这仅仅是游戏体验的一个方面,玩家还是希望更有差异化、以及人性化的体验。
很多人认为游戏中加上了 AI 能力就是 AI 游戏,我们认为这是一种「掺水」,或者说是对 AI 游戏标准、对自己的作品的一种「宽容」。有些界定,最好是能比较清晰的。以 AI 游戏来说,AI 从游戏的底层架构开始就应该发挥作用,而不是加点 AI 的边角料就说自己是 AI 游戏。
刘永升:我们以前做强化学习,让游戏里的 Bot 能力变得很强,甚至比真人还要厉害。但是对于玩家来说,希望在游戏里遇到的 Bot 不要完全碾压自己,TA 能够对我好,有温度。比如我在游戏里面遇到的队友、角色也能够跟进我的要求。
比如物理上的一些限制,人在游戏操作里不能够瞬间 180 度转身,决策一次需要 0.1~0.2 秒,这些限制对于 AI 来说不存在。
通过建模,我们可以把人在游戏世界里操作时的限制、或者模式写进去。这是我们以前解决比较多的一个点。
刘永升:玩家也会希望 Agent 在游戏世界的行为更像人,跟人的互动更加丰富,(这意味着)Agent 不仅能够响应玩家的命令,还能够主动地向玩家提出一些请求。
这种效果在 LLM 技术出来之前,用之前的一套技术栈满足互动性的需求,是比较难的。
我们的目标一直是提高 Agent 的自主性和互动性。在 2021 年之前,我们一直在提高自主性,让 AI 在复杂场景里做决策。在 2021 年我们发布了「猎户座α」,相当于突破了 3D 环境里的 GameAgent,让 AI 可以玩射击类的游戏,这也是全球范围内我们最先做出这个成果。
极客公园:似乎是 LLM 出来之后,像斯坦福小镇这样的研究出现之后,人们开始对 Agent 在游戏里的具体形态有了更多想象。
刘永升:现在,Agent 除了实现自主决策是不够的,还需要具有的「互动性」,也就是它们之间彼此互动产生足够多的内容。于是我们做了「活的长安城」这样一个城市 Demo,里面有很多不同背景、不同职业的人,他们之间有各种复杂的关系,形成自运转的一个小型社会。对应这个 Demo 同时发布的叫做「游戏 NPC 生态技术」。
在 2019、2020 年的时候,我们讨论过 Agent 这个概念。但是那个时候,Agent 会翻译成代理,近一两年才翻译成「智能体」。
如果在当时的环境下,翻译成代理跟别人去介绍,对方完全会一脸懵逼。所以当时我们就退而求其次,叫做 GameBot。
刘永升:未来我们的生活中会出现越来越多 Agent,比如越来越多的机器狗、无人机。某种意义上,机器人属于 Agent 的一种,未来的硬件、具身智能也会越来越发达。
具体到游戏领域,Agent 也会走出来,因为你在游戏世界和 Agent 有大量的互动,它会加深对你的了解,你对他就会产生很强的羁绊,这种羁绊是可以延续到生活中的。
那么当游戏的周边实体出现,比如游戏里的一些角色,就能够变成你生活中的高级玩具,他能够和你一起创建 Both Reality,在游戏世界与你探索,在生活中与你进行各种互动。所以我们认为未来是 10 亿人和 100 亿 AI 共同生活的世界。
极客公园:「活的长安城」这个虚拟城市 Demo 对应的「游戏 NPC 生态技术」,这个技术栈要怎么理解?
刘永升:在 Agent 的技术拆分上,我们和大多数团队的处理方式都一样,分成不同的模块,Control、Plan、Memory、Reflection 等。这是每一个个体,也就是一个 Agent 的底层架构。
此外,这个生态需要更好地运转,也就是 Agent 和 Agent 之间更好地互动,需要有更上层的设计。可以将它理解为一个「事件的触发器」,进行 top-down 的控制。如果没有这种 top-down 的控制,只靠底层的涌现,生产的内容很快就会让人觉得索然无味了。
实际上最难的是在顶层要做多大的控制,即事件触发。某个事件触发之后,会改变游戏世界的很多状态或数值,进而影响到最底层的 Agent。
很像人和国家的关系、国家之间的关系博弈,(一个顶层事平博 平博网址件)会改变很多东西,再进一步传递到个体,个体也会受到影响。在没有大模型之前,或者是大模型没有这么强的时候,「事件触发」做起来是挺难的。
刘永升:要依靠策划,并且做大量的修改。但是我们发现像 GPT-4 出来之后,上层的事件触发和 LLM 结合起来,是比较有效的。首先,大的事件不会特别高频,不会时时刻刻变化。第二,发生变化之后,传递到底层「人们」的行为发生变化,也会有一个过程。
刘永升:我认为最牛逼的就是这样一套全新的体系。底下的互动,也会影响上层事件触发的逻辑。如果只是 Bottom-up,相当于只给了一个起点,具体会发生什么,完全是平博 平博网址不可控的。如果我给的是很多关键节点 a、b、c、d、e。这些节点是确定的,但是每个节点之间怎么走,是交给 AI 自己决定的,但是整体主线是 make sense 的。
刘永升:我们最近在和一个 Steam 游戏团队合作,把这样的技术架构落到一个商业化游戏里面去。
关于太空商人和经营类的游戏。大致设定是在太空里有很多星球,有很多 Agent,而 A 国和 B 国之间的关系会影响到商人之间的经营。比如两国关系紧张了,可能 B 国就突然不跟 A 国做生意了,或者提价等等。
现在的游戏研发比较追求确定性。而游戏研发本身是一个非常复杂的系统工程,有很多不同工种、不同专业的人参与进来,也有非常严密的项目管理。
AI最大的特点是不确定性,怎么让对确定性要求非常高的一套管理软件,去兼容不确定性,是很难的。
比如合作中经常会发生 AI 和策划同学都崩溃了的情况,怎么把双方都梳理好,这里面临巨大的挑战。
这也可以解释,为什么所谓的 AI-Native 的商业化游戏还没有出来,因为你不是有个想法就行,具体到团队付诸实施的层面,经常会被整疯了。要不做游戏的疯了,要不做 AI 的疯了。(笑)
刘永升:团队很重要。选人的时候,对团队的要求变高了,真正有信仰的人,疯了一段时间之后,又能冷静下来,具体去探讨怎么把这个问题解决。对于整个项目而言,耐心程度要更高一些。
这里面,除了 AI 的不确定性,最终的整体游戏体验也有不确定性。那么整个过程中就不像传统游戏的 Milestone,很够很清晰地建立对下一个版本的预期。
极客公园:外界常常将超参数视为游戏 AI公司,但是似乎这和超参数对自己的理解有所不同?
刘永升:我们也很无奈,可能我们身上的「游戏」标签比较重,我们只是把游戏作为一个AI技术迅速落地的场景而已。
此前,游戏是一个适合强化学习、无监督学习迭代的场景。那么现在 LLM+RL 的技术栈,依旧是合适在 GameAgent 的场景中去迭代。
极客公园:毕竟从商业化角度而言,超参数约等于是中国最大的第三方AINPC 供应商。
刘永升:作为技术公司,我们不像 DeepMind 有大公司养活,所以我们需要考虑商业化,游戏领域的商业化我们做的的确不错。
我们也在其它的领域尝试应用,比如将 Agent 技术应用在低空交通领域,包括自动驾驶。还有一个非常重要的方向叫做 Agent based simulation,比如我们在和一个大学合作,对古代的城市进行模拟,对经济系统中人的行为进行模拟。
很多复杂系统不能归纳推理,利用 AI 技术将一些场景模拟出来,再返回生活的场景,能够解决一些问题。
刘永升:如果他们想做一种新的游戏引擎,去取代现有的引擎,我觉得会很难。现在的游戏项目已经是一个超级复杂的工程,有非常复杂的管线的管理。有内容、运营、商业化的,很多不同的要素。如果你想让 AI 进行端到端的尝试,非常不利于人与人协同开发。即使现在生成的视频,最后要用起来,还是需要人做后期的处理。
如果作为视频生成的加强版,除了呈现还增加了互动,我觉得是一个比较好的科研项目。能够让 AI 更好地理解物理世界。因为生成内容于对一致性的要求更高,如果真的能够解决一致性,势必对物理世界的理解会更深。
极客公园:那怎么看前不久一家初创公司实现的实时可交互世界模型 Oasis?
刘永升:现在挺多人会尝试用自然语言聊天的方式来实现一个游戏,我自己也会跟进一些这样的项目。我自己最大的感受是,不见得写代码就会比语言更复杂。
刘永升:所以我倾向于认为,未来通过语言交互生产的内容,很难做一些非常复杂的系统,因为复杂的东西,你要用语言描述出来其实是很难的,效率也很低。
极客公园:这样的视角,或许与超参数这些年作为一个成熟技术的供应商有关?除了技术突破之外,也很注重工程的稳定性,效率等因素。
刘永升:碰到这个话题,我挺想多说一点。很多时候,大家一讲到技术,就会更多讲算法,比如在强化学习的时候,大家会对 PPO、DQN 等很感兴趣。
但是在这次大模型出来之后,大家开始注意工程。比如让 10 万块 A100 或者 H200 并行,面临大量的工程挑战。
从我的视角去看,这仅仅是 offline 的工程,还有另外一块非常重要的点是 Online,就是模型怎样去 delivery 服务。
特别是像我们需要在全球去提供服务,在南美、东南亚很多地方,IDC 不具备部署新型 GPU 的条件,这种时候要提供实时的服务,本身就是一个巨大的难题。我们过去一直在解决这些问题,比如如何让压缩过的小模型在 10 年前的 CPU 上都能够跑起来,做大量的压缩和预测,在网络质量差的情况下也做到低延时。
看到大家现在重视工程,比较欣喜。我也相信接下来,过去两年积累起来的大模型的能力,真的去大规模服务的话,高并发、低延时的场景,会遇到很多 Online 的巨大挑战。
极客公园:创业者这么多年,肯定经历了很多的挑战,其中也有起起伏伏,有什么体会特别想分享的吗?
刘永升:我对自己比较震惊的一点,就是我觉得自己肯定不会犯的错误,我还是老老实实犯了两次。从理智角度来讲,你觉得自己绝对不会犯这个错误,但还是犯了——就是不够聚焦。
大家都知道,创业应该聚焦,用有限的资源去做最重要的事情。道理都是知道的,但是我为什么还会犯错误,我自己想这里面的原因是什么。很大一个原因是,之前在大厂各方面资源支持比较充足,也赶上了趋势,加上团队很给力,在很长一段时间里呈现出「没有做不到,只有想不到」的状态。惯性或者说潜意识里就会过于乐观。
到今年 4 月份之后,我们深刻认识到要有敬畏之心。经历过教训,会告诉自己一定要控制好自己的手脚,不要分兵,是一件很难很难,但是非常非常重要的事情。
刘永升:上次我写的内部信,我最喜欢的是标题,「坚韧如歌,随风起舞」。像坚韧,也是很难通过后天去习得的,是机缘巧合你身上就会具备的某种东西。
「最后,我想与大家分享一篇最近读到的英文文章的标题:Whispers of Resilience: Dancing with the Winds of Change,挺难完美翻译出英文的味道。最打动我的是 Whispers of Resilience 这个短语,它以一种独特的方式描述了身处困境时的坚韧,如轻声低语,既轻盈又自信,是一种内在的、持久的力量。它让我联想到古希腊吟游诗人荷马,荷马的坚韧与「Whispers of Resilience」中的力量如出一辙。他在失明、孤独的境遇中,依然创作出传世的史诗《伊利亚特》和《奥德赛》。他没有被命运打倒,而是以音乐和诗歌为武器,描绘战争与漂泊,传递希望与勇气。荷马的诗句,犹如微风中的低语,在逆境中保持优雅与从容。他用艺术为世界带来光明,用内心的坚定与乐观,告诉后世:即便面对风暴,也能与命运共舞。」
扫一扫关注微信公众帐号