这项由昆仑天工AISkywork AI研究团队完成的研究以技术报告形式发布于2026年4月论文编号为arXiv:2604.08995有兴趣深入了解的读者可以通过该编号在arXiv平台上查询完整论文。**当AI开始实时造世界**假设你正在玩一款从未存在过的电子游戏。你按下向左的方向键游戏里的人物转身街道随之出现你向前走了一分钟后折回原路街角那棵弯曲的老树还静静地在那里一砖一瓦都和你离开时一模一样。更神奇的是这一切不是某个程序员预先设计好的——它是AI在你操作的瞬间凭空想出来的而且每秒钟能刷新40张画面比大多数电影的帧率还高。这正是Matrix-Game 3.0想要实现的目标。它是一个交互式世界模型——用更通俗的话说就是一台能根据你的实时操作不断生成画面的AI视频引擎。你按键盘它造场景你转动鼠标它调整镜头你走过一片森林转身回望它还记得那片森林长什么样。目前大多数AI视频生成工具更像是照片冲洗店——你提交需求等上几秒甚至几分钟才能拿到一段几秒钟的成品。这种方式用来制作广告短片还行但要真正让人坐进去玩就完全不够用了。Matrix-Game 3.0的野心在于打破这道壁垒不仅要快还要有记忆还要能接受操控还要清晰到720p的高清分辨率。**一、为什么同时做到这三件事这么难**做过饭的人都知道一道菜要同时做到快、好吃和量大往往顾此失彼。AI视频生成也面临类似的三难困境。第一难是速度。现有的顶级视频生成模型比如Sora或Kling生成质量很高但速度极慢根本无法用于实时交互。要让AI跟上人手操作的节奏就必须大幅压缩计算时间而这通常意味着牺牲画质。第二难是记忆。当AI按段生成画面时它很容易忘记自己刚才生成了什么。你向前走了三十秒后折回AI可能已经不记得那条小巷的砖墙是红色还是灰色了于是画出一个和之前完全不同的场景。这种失忆在短视频里不明显但在需要持续几分钟乃至更长时间的交互体验中会让整个世界感觉支离破碎。第三难是控制。让AI根据用户的键盘和鼠标操作精准生成对应画面本身就是一个复杂的技术挑战。按下向前键时AI必须理解这意味着镜头推进、背景缩小、新场景逐渐出现而不是随机生成一段不相关的画面。在Matrix-Game 3.0出现之前已经有一些研究在尝试解决其中的一两个难题。比如Matrix-Game 2.0和HY-Gamecraft-2实现了实时流式生成但缺乏长期记忆而LingBot-World通过扩展上下文长度改善了长期一致性但又很难做到实时流畅。没有人能把三件事同时做好。Matrix-Game 3.0的整体解题思路是把这个问题拆成三个相互配合的子任务分别在数据、模型结构和推理加速三个层面上各个击破再把解决方案拼合成一个协调运转的完整系统。**二、世界的原材料数据引擎**要训练一个AI造世界首先得给它看足够多、足够好的世界素材。但这件事本身就不容易。普通的网络视频没有精确的摄像机位置信息也没有记录用户按了什么键的数据。这对于训练一个能响应操作指令的世界模型来说就好比想教一个厨师做菜却只给他看成品照片不告诉他配方和步骤——根本没法学。昆仑天工团队因此构建了一套工业级的数据生产流水线从三个截然不同的源头同时供货。第一个源头是虚幻引擎Unreal Engine 5搭建的合成环境。团队在这套世界顶级的游戏引擎里建造了超过一千个虚拟场景配备了精细的光照和几何建模。在这套流水线里每一帧画面生成时系统都同时记录下画面内容、摄像机的精确位置和朝向、角色在世界中的坐标以及当前按下的操作键——所有这些信息的时间误差为零因为它们都在同一个引擎心跳里产生。相比之下用外部摄像头去录制已有游戏的话视频和操作数据之间总会有难以消除的时间偏差。此外团队还设计了一套角色外观组合系统可以随机搭配衣服、鞋子、发型、配饰等各部分理论上能产生超过一亿种不同外观的角色确保训练数据在视觉上足够多样。但合成环境终究比不上真实游戏的视觉丰富度。于是团队又搭建了第二套系统专门从GTA V、荒野大镖客2、幻兽帕鲁、赛博朋克2077、霍格沃茨遗产等多款顶级商业游戏里自动录制数据。这套系统采用了四层解耦架构最底层是游戏本身运行的进程中间层负责控制游戏里的角色自动探索场景录制层用专业软件按每60秒一段切片记录画面最外层则负责把所有视频和对应的操作数据、摄像机参数打包成标准格式输出。整套流程几乎不需要人工干预数据准确率超过99%。更妙的是这套架构的扩展性很好——如果要接入一款新游戏只需要针对那款游戏写一个特定的角色控制插件其余部分完全可以复用。第三个数据来源是真实世界的视频。团队引入了DL3DV-10K一万个4K高清场景序列、RealEstate10K室内房产漫游视频、OmniWorld城市街头行走视频和SpatialVid涵盖步行、驾车、无人机航拍等多种视角的高清视频等数据集。这些真实视频带来了合成环境里难以复现的光线变化、材质质感和自然镜头运动。为了消除不同数据集之间摄像机坐标系不统一的问题团队统一使用ViPE工具对所有真实视频重新进行了位姿标注。数据收集完成后团队还对每一段视频进行了细粒度的文字描述标注采用四层层次化方案整体叙述性描述、静态场景外观描述、逐段动态事件描述以及从运动流畅度、背景动态性、场景复杂度、物理合理性和整体质量五个维度打分的感知质量评分。最后通过深度重投影误差检验、位移比例异常检测和速度范围过滤三重机制筛掉了约20%的低质量片段留下高质量的训练集。**三、会自我纠错的画师基础模型的设计**数据准备好了接下来的核心问题是AI模型本身该怎么设计才能在生成连续画面时不跑偏这里有一个技术上的经典困境叫做曝光偏差。可以把它理解成这样一个困境一个学生在练习写作时老师总是给他看完美的范文作为参考。他学会了根据完美范文续写下一句。但到了真正考试时他只能参考自己上一句写的内容而他写的内容肯定不如老师的范文完美。这个误差会不断累积——他越写越偏因为他从来没有练习过从有缺陷的上文开始续写这个技能。AI视频模型的问题完全一样。在训练时它总是以真实的、完美的历史帧作为参考来生成下一段但在实际运行时它的参考只有它自己之前生成的画面而那些画面难免有各种小错误。这些错误越积越多最终导致画面越来越不稳定。Matrix-Game 3.0通过一种叫做错误感知训练的机制来解决这个问题其思路来自于Stable Video InfinitySVI这篇相关研究的启发。具体做法是这样的在训练过程中AI每生成一帧画面系统就计算这一帧和真实画面之间的差异把这个差异存入一个错误缓冲区。然后在训练下一批数据时从缓冲区里随机取出一个之前积攒的误差把它叠加到用作参考的历史帧上再让AI试着从这个已经被污染的参考画面出发生成正确的下一帧。久而久之AI就学会了如何从不完美的参考里提取有用信息生成依然稳定连贯的画面。这就像是专门训练厨师在食材质量参差不齐的情况下也能做出一道合格的菜——而不是只在食材完美时才会做菜。在操作控制方面Matrix-Game 3.0继承并改进了前一代的设计思路。键盘按键比如前进、后退、跳跃、攻击等离散的操作通过一种叫做交叉注意力的机制注入模型鼠标移动连续的方向控制则通过自注意力机制直接影响画面生成。两种控制信号以不同的方式融入模型让AI对操作的响应既精准又自然。模型架构上团队刻意选择了让教师模型和学生模型后面会解释这对概念使用完全相同的双向变换器结构。这与很多其他方法不同——很多方法让教师用一种架构学生用另一种架构结果两者之间的理解方式存在根本性的差异导致知识传授时出现扭曲。昆仑天工团队的逻辑是用同一种语言说话沟通才最顺畅。**四、带地图的旅行者长期记忆机制**解决了单段画面生成的稳定性问题之后更大的挑战是如何让AI在几十秒乃至几分钟的连续生成中保持世界的一致性。这个问题可以用一个旅行者的比喻来理解。假设你在一个巨大的城市里探索每走过一个街区你就把它的样子拍下来存在口袋里。走了一大圈之后你回到最初的那条街——你能认出它是因为你有之前拍的照片。但如果你口袋里只能装最近走过的五个街区的照片之前走过的地方的记忆就只能靠猜测了。Matrix-Game 3.0的记忆机制要做的就是让AI在这个口袋里聪明地装照片并且知道什么时候该翻出哪张来参考。团队在设计过程中先研究了两种现有方案发现各有缺陷。第一种是隐式长上下文建模——把所有历史画面都喂给模型让它自己从中找到相关的部分。这种方法的问题是当模型还在噪声很大的早期生成阶段时它很难判断哪些历史信息是真正有用的导致记忆选择不稳定而且把所有历史画面都保存在内存里计算开销也非常大。第二种是外挂记忆分支——单独建一条记忆处理通道通过交叉注意力把记忆信息注入到主生成流程里。但这种方式导致记忆特征和生成特征不在同一个语义空间里特征对齐困难收敛很慢效果也有限。Matrix-Game 3.0采用的解决方案更为优雅把记忆帧、近期历史帧和当前待生成的噪声帧全部放进同一个注意力空间里一起处理。这就像是让旅行者随时都能把口袋里的所有照片铺在桌上和眼前的实际景色一起比对而不是先单独研究照片、再单独看景色、最后靠大脑拼接。通过这种统一处理的方式模型能在同一次计算中同时考虑短期连续性来自近期历史帧和长期锚点信息来自久远的记忆帧。但并非所有历史画面都值得记住。假设你在城市里探索走进了一条死胡同又退出来那条胡同里的样子对你接下来继续向北走帮助不大。Matrix-Game 3.0引入了摄像机感知的记忆检索机制——根据当前摄像机的朝向和视野范围从历史帧库里挑出视野重叠度最高的那些帧作为记忆参考。简单说就是挑和当前视角看到的东西最像的历史画面来参考。这样既节省了计算资源又确保了参考信息的相关性。除此之外团队还保留了序列里的第一帧作为持久性的全局锚点。这一帧始终在场为整个生成序列提供稳定的风格和场景氛围基调就像旅行者出发时给城市全景拍的那张鸟瞰照片无论之后走到哪里总能想起这个城市大体长什么样。为了让AI真正理解记忆帧和当前帧之间的空间关系团队还引入了相对普吕克编码——这是一种把摄像机的相对位置和朝向用数学方式编码进模型输入里的技术。打个比方这就像是在给AI的参考照片上写上备注这张照片是在你当前位置向东走50米、向左转30度时拍的。有了这个空间几何信息AI就能更准确地判断历史画面里的场景元素应该出现在当前视野的哪个位置而不是把历史记忆以一种视角错乱的方式强行贴进当前画面。在位置编码负责告诉模型每一帧在时间序列里处于什么位置的机制方面团队发现了一个潜在问题标准的旋转位置编码RoPE是周期性的意味着时间间隔很远的两帧有可能被误认为时间相近。为了解决这个问题团队引入了逐注意力头扰动旋转基底技术——让模型的不同思考通道注意力头各自使用略有不同的时间刻度就像用多块走速不同的时钟来共同判断时间避免所有时钟同时走到整点、无法分辨具体时刻的情况。实验中的注意力热力图验证了这个设计的有效性即使是时间上相距很远的记忆帧在生成当前帧时依然能获得非常可观的注意力权重证明模型确实在有效利用远距离的记忆信息。**五、让快车也跑得准知识蒸馏与推理加速**基础模型设计好了但它还是一个需要多步反复计算才能生成高质量画面的慢车。要达到每秒40帧的实时速度必须把它压缩成一辆快车同时尽量保住画质和记忆能力。这个压缩过程叫做知识蒸馏。通俗地说就是用一个大而慢的教师模型来监督训练一个小而快的学生模型让学生尽可能模仿教师的输出质量。但在这里团队遇到了一个前人研究中普遍忽视的问题学生在学习时应该模仿什么情况下的教师如果总是让学生参考完美历史帧来学习那到了实际推理时学生面对的是自己生成的不完美历史帧两种情况之间的鸿沟会导致学生发挥失常。Matrix-Game 3.0的解决方案是多段自生成推理方案整个设计思路借鉴了分布匹配蒸馏DMD的理论框架。具体做法是让学生在学习过程中真正滚动起来从随机噪声出发生成第一段画面然后把这段画面的末尾当作下一段的起点继续生成第二段……如此重复多次形成一个真正的连续推理链。在训练时随机选取其中某一段画面把它同时送给教师模型和一个专门评判画面质量好坏的评判者模型通过比较教师和学生在这一时刻的概率分布差异来计算损失、更新学生参数。这套方案的聪明之处在于学生从一开始就在真实的推理环境里学习而不是在温室里学习、到实际场景里才发现自己完全不适应。训练分两个阶段进行第一阶段前600步是冷启动使用单段推理、以真实历史帧为参考防止学生在训练早期因为完全依赖自己生成的糟糕画面而崩溃第二阶段后2400步切换为真正的多段自生成推理每次随机选取1到6段的推理链长度让学生充分适应各种长度的连续生成场景。有了蒸馏好的学生模型还需要一系列系统层面的工程优化才能真正达到40FPS。第一项优化是对核心生成网络DiT进行INT8量化。量化是一种把模型计算精度从高精度浮点数降低为低精度整数的技术类比于把一把万分之一毫米精度的游标卡尺换成一把精度够用的普通尺子——计算速度快了很多而对最终画面质量的影响在可接受范围内。团队只对最关键的注意力计算层做了量化其他部分前馈网络、VAE、文本编码器保持原始精度这样能在速度和质量之间取得最好的平衡。第二项优化是对VAE解码器进行剪枝。VAE变分自编码器负责把模型在潜在空间里生成的压缩表示转换回人眼能看到的像素图像在高分辨率流式生成中这个步骤会成为速度瓶颈。团队训练了一个叫做MG-LightVAE的轻量化版本通过缩减解码器内部的隐藏层维度来压缩计算量同时保持整体架构不变。团队提供了50%剪枝和75%剪枝两个版本50%剪枝版在测试集上的峰值信噪比PSNR衡量画面重建质量的指标从原始的33.79降至31.84但解码时间从0.76秒压缩到0.30秒75%剪枝版PSNR进一步降至31.14但解码时间只需0.13秒是原始的约六分之一而结构相似度SSIM在两个版本中都保持在0.99说明视觉上的整体结构保真度依然极高。第三项优化也是速度提升幅度最大的一项是把记忆检索从CPU搬到GPU上执行。模型每生成一段画面前都需要从历史帧库里找出和当前视角最相关的记忆帧随着生成时间越来越长历史帧库也越来越大在CPU上做这个检索会越来越慢。GPU版本用一种基于随机采样的近似计算方法替代了精确的三维视锥体积交叉计算速度大幅提升而检索准确性依然足够高。从消融实验数据来看去掉GPU检索后系统帧率从约40FPS跌至6.60FPS降幅高达33.40帧是三项优化里影响最大的一项。去掉INT8量化的影响为12.62帧去掉MG-LightVAE的影响为14.21帧。三项优化协同作用共同撑起了40FPS的最终性能。实际部署时系统采用81的异步GPU分配方案8块GPU专门负责DiT推理1块GPU专门负责VAE解码两个步骤并行执行互不等待进一步提升了流水线的整体吞吐量。**六、变大的世界规模扩展到280亿参数**完成了5B50亿参数模型的全套设计之后团队还进一步探索了把模型规模扩展到28B280亿参数的可能性采用的是MoE混合专家Mixture of Experts架构灵感来自于LingBot-World团队的相关工作。在这个大模型的训练中团队发现了一个有趣的规律模型在处理高噪声阶段即从噪声逐渐恢复出画面的早期阶段时是学习操作控制的最佳时机而低噪声阶段即对画面细节进行精细调整的后期阶段则更适合学习如何提升视觉质量。基于这个观察团队把两个阶段的训练解耦高噪声阶段的模型用精确标注了操作数据的专业游戏视频来训练确保它准确响应玩家指令低噪声阶段的模型则可以用互联网上大量没有操作标注的普通视频来训练广泛学习各种场景的视觉规律提升画面质量和泛化能力。这种解耦让海量无标注数据的价值得到了充分利用。此外团队还注意到第一人称视角好像你直接通过角色的眼睛看世界和第三人称视角你在角色背后跟随它的动态规律差异很大很难用同一个模型同时学好。因此在28B版本里团队为两种视角分别训练了专门的高噪声模型但共享同一个低噪声精细化模型在资源利用效率和专业化能力之间取得平衡。从定性实验结果来看28B版本在场景多样性、动态一致性和长时序稳定性上都有明显提升在城市驾驶、骑马穿越、夜间骑行、开放世界角色漫游等多种AAA游戏场景下场景布局、角色身份和物体关系在长达30秒的序列里都保持了高度一致同时运动动态、光线变化和场景过渡也更为丰富自然。**七、实验结果这个世界有多真实、多稳定**在基础模型的测试中研究者设计了一个特别有说服力的实验让AI生成一段视频前半段按某个方向探索场景后半段的操作和前半段完全对称地反向执行逼迫AI回到原地。如果AI的长期记忆有效它应该能还原出之前见过的场景如果没有它只会生成一个全新的、和之前毫无关联的画面。实验结果显示在多个测试场景里当镜头回到之前探索过的区域时模型能够忠实地还原出原有的场景结构和视觉细节包括局部几何形状、物体摆放、建筑立面纹样以及材质级别的细节——这些在实验结果图中用红色方框特别标出清晰地展示了记忆机制在起作用。在蒸馏模型的测试中研究者同样设计了刻意回访特定场景和内容的动作序列。结果表明蒸馏后的快速模型有效继承了基础模型的记忆能力之前出现过后被遮挡的物体和场景在镜头转回时能够被正确复原同时对于新出现的场景生成质量同样丰富准确在较长的序列末尾也没有出现明显的风格漂移或内容失真。在加速实验的消融分析中三项优化措施的组合效果得到了量化验证完整系统约40FPS去掉INT8量化后降至27.38FPS去掉MG-LightVAE后降至25.79FPS去掉GPU检索后仅剩6.60FPS。这组数据清楚地说明速度是多项工程优化共同作用的结果任何一环的缺失都会显著影响整体性能而GPU记忆检索是其中最不可或缺的一环。---说到底Matrix-Game 3.0做的事是把AI实时造世界这件曾经看起来遥不可及的事推进到了工程可行的边界。它用工业规模的数据流水线解决了没有好材料的问题用错误感知训练解决了AI容易跑偏的问题用统一注意力空间的记忆机制解决了AI容易失忆的问题用多段自生成蒸馏解决了快慢模型之间的鸿沟问题再加上量化、剪枝和GPU检索等一系列工程优化把一切都压缩进了每秒40帧的实时体验里。这对普通人意味着什么短期来看这类技术最直接的应用场景是游戏和虚拟现实未来的游戏也许不再需要预先设计好所有关卡AI可以根据玩家的每一次操作实时生成从未有人见过的新场景。稍远一些在机器人训练、工业仿真、沉浸式教育等领域一个能快速响应操作指令、保持长期一致性的虚拟环境生成器可以大幅降低构建真实训练场地的成本。更长远地看当AI能实时生成一个有记忆、有反应的虚拟世界时它本身就成了一种全新的计算媒介——不是展示预设内容的屏幕而是随时根据你的意图演化的活的世界。不过也有一些值得思考的开放问题。目前Matrix-Game 3.0的训练数据以游戏和有限的真实场景为主生成的世界在视觉风格上还是以游戏画风为主记忆机制目前主要依赖视角重叠度来检索对于物体随时间发生的状态变化比如一扇门被打开后的状态的持久记忆还有改进空间而随着生成序列越来越长如何让记忆库的规模保持可管理也是未来需要继续探索的方向。有兴趣深入了解技术细节的读者可以通过arXiv编号2604.08995查阅完整技术报告。---QAQ1Matrix-Game 3.0和普通AI视频生成工具有什么本质区别A普通AI视频工具是你输入提示词、它生成一段固定视频用户无法实时干预。Matrix-Game 3.0是一个实时响应用户操作的交互系统——你按下键盘或移动鼠标AI会在同一瞬间生成对应的新画面同时还能记住几十秒前看过的场景在你回到原地时忠实还原。Q2Matrix-Game 3.0生成的画面质量怎么样真的能达到游戏级别吗A目前能达到720p分辨率、每秒40帧的生成速度视觉风格接近AAA游戏画面。实验中5B参数模型在速度上已经超过Genie 3报告的约24FPS28B版本在场景丰富度和动态一致性上进一步提升但整体依然以游戏渲染风格为主与照片级真实感还有差距。Q3Matrix-Game 3.0的长期记忆是怎么实现的它真的能记住几十秒前的场景吗A记忆机制的核心是根据摄像机视角的重叠度从历史帧库中检索最相关的历史画面然后把这些记忆帧和近期历史帧、当前待生成帧放进同一个注意力计算空间里联合处理。实验中通过探索后原路返回的测试验证了其有效性在30秒序列里能还原出建筑立面纹样和物体摆放等材质级别的细节。