你是否曾想过,在《王者荣耀》这样瞬息万变的战场上,一个AI能像金牌教练一样,瞬间分析战局、指挥队友,甚至解释每一步决策背后的逻辑?这不再是科幻电影的场景。腾讯推出的Think-In-Games(TiG)框架,正让这一切成为现实。更令人惊叹的是,它让一个仅有140亿参数的“小模型”,在战略决策上的准确率超越了庞大的6700亿参数模型,达到了惊人的90.91%。这背后究竟是如何实现的?它又将如何改变我们玩游戏的方式?
传统的游戏AI,比如我们遇到的“AI托管”,更像是一个按固定套路出牌的“莽夫”。它或许能完成补刀、放技能等基础操作,但它不理解“为什么”要这么做——它缺乏对游戏局势的宏观理解和战略规划能力。另一方面,大语言模型虽然知识渊博、善于推理,能分析攻略告诉你“避免过度推进”,但让它亲自进入游戏,在毫秒之间做出实时操作,却又束手无策。
TiG框架的核心突破,就在于它巧妙地弥合了这道鸿沟。它不再让AI学习成千上万个微观操作指令,而是教它像人类指挥官一样进行“宏观战略思考”。腾讯的研究人员为《王者荣耀》定义了40种宏观团队行动,例如“集合打暴君”、“分推上路”、“抱团防守高地”等。TiG框架下的AI,任务就是从这40个选项中,根据实时战况选择最优解,并生成一段语言来解释这个决策。
简单来说,TiG把复杂的游戏决策,变成了一个AI更擅长的“语言建模”任务。AI不再是盲目执行命令的士兵,而是能够审时度势、运筹帷幄的军师。
TiG框架的成功并非一蹴而就,其训练过程融合了前沿技术,可以概括为四个关键步骤。
第一步:让AI“读懂”战场
首先,TiG需要将游戏世界翻译成AI能理解的语言。它把每一刻的游戏状态——包括我方英雄血量、位置、技能状态,防御塔血量,野怪刷新情况,地图视野信息等——整理成一个结构清晰的JSON数据“战报”。这样,AI就获得了与人类玩家相似的战场信息视野。
第二步:从“学霸”笔记中学习(监督微调)
在让AI亲自下场“实战”之前,先让它学习“学霸”的经验。研究人员从表现优异的DeepSeek-R1等大模型中,提炼出高质量的决策与推理数据。这些数据就像是顶尖玩家的对局复盘和战术笔记,让较小的模型(如Qwen3-14B)能够快速掌握深度推理的模式和战略思维,打好理论基础。
第三步:在实战中迭代进化(强化学习)
纸上得来终觉浅。接下来,AI被投入真实的游戏对局中进行训练。这里采用了一种名为群体相对策略优化(GRPO)的算法。其机制非常巧妙:AI会针对同一局势生成多个备选策略,系统会计算每个策略的“相对优势”——即与其他策略相比,它能带来多少胜率提升。同时,算法会约束AI的策略不能偏离参考模型(从学霸那里学来的基础)太远,避免它突然“走火入魔”做出离谱判断。奖励机制则简单直接:AI预测的行动若与人类高手的实战选择一致,就得1分,否则得0分。
第四步:实现“思考与行动”的同步
经过上述训练,AI最终能做到:接收实时战报(JSON数据)→ 分析局势 → 生成包含“宏观行动指令”和“推理过程”的语言描述。例如,AI可能会输出:“当前敌方中路一塔血量较低,且打野出现在下路。建议集合中路,优先推掉一塔,以打开视野并压缩敌方野区。推塔时需注意敌方中单的爆发技能,建议由坦克英雄先上前吸收伤害。”
这是TiG框架最引人瞩目的成果之一。通常,模型的参数规模越大,其能力往往越强。但经过TiG框架训练后,参数量仅140亿的Qwen3-14B模型,在《王者荣耀》宏观决策任务上的准确率达到了90.91%,反而超过了参数量高达6710亿的DeepSeek-R1模型(86.67%)。
这揭示了AI发展的一个重要方向:在特定垂直领域,通过精巧的框架设计和针对性的训练,较小的模型完全可以超越通用大模型。TiG框架就像为Qwen3-14B模型定制了一套完美的“王者荣耀战略思维训练课程”,让它将所有能力聚焦于解决游戏内的决策问题。而庞大的通用模型虽然知识面广,但未必在如此具体的任务上经过同等强度的专项优化。这为未来AI应用落地提供了高性价比的新思路——不必一味追求大参数,专精训练同样能创造奇迹。
TiG框架的价值,绝不仅仅是为《王者荣耀》增添一个“大神队友”。它的成功验证了一套方法论:如何让善于推理的大语言模型,在复杂、动态、需要实时交互的环境中,做出可靠且可解释的决策。
这套方法论具有极强的迁移潜力。试想,那些同样需要快速分析多变量信息、做出序列化决策的场景,例如:
*自动驾驶:实时分析路况、行人、交通信号,规划安全高效的行驶路径。
*工业自动化:监控复杂生产线的运行状态,动态调整参数以优化效率和良品率。
*机器人控制:让机器人在非结构化环境中完成复杂的抓取、避障和协作任务。
在这些领域,TiG框架所实现的“实时感知-战略推理-行动解释”闭环,很可能成为下一代智能系统的核心技术范式。
回到游戏本身,TiG框架预示着一个全新的游戏体验时代。未来的《王者荣耀》中,AI可能不再是你掉线后那个笨拙的“托管”,而是一个真正的智能伙伴。它可以根据你的打法风格进行适配,在你犹豫时提供战术建议,甚至在你学习新英雄时充当私人教练。
腾讯已经在朝这个方向探索,例如游戏内的“灵宝”助手,已初步具备基于对局信息的实时语音交互能力。随着TiG这类技术的成熟,“赛博游戏搭子”将越来越智能。它们不仅能陪你玩,更能教你玩,让游戏从单纯的娱乐,进化为一个更具深度和成长性的互动体验空间。
当然,这也带来新的思考:当AI队友过于强大时,是否会削弱玩家自身的竞技乐趣和公平性?如何在提升体验与保持游戏竞技本质之间找到平衡,将是开发者与玩家需要共同面对的新课题。
无论如何,TiG框架已经为我们推开了一扇门,门后是一个AI能够深入理解复杂规则、进行高级别战略协作的世界。游戏,这个人类创造的精妙“ playground”,再次成为了AI突破认知边界、学习如何与世界交互的最佳试验场。下一次当你进入王者峡谷,或许可以多一份期待:那个与你并肩作战的,可能是一位由代码和数据构成的“天才战略家”。
