生成视频好看还不够，还要能自由探索！昆仑万维开源Matri糖心在线观看播放 x

频道：商业日期：2025-05-15 16:08:04 浏览：1

声明:本文来自于微信公众号机器之心，作者:张倩、泽南，授权站长之家转载发布。

世界模型的进度条，最近坐上了火箭。

去年11月，两家创业公司打造的Oasis，首次在开源世界模型中实现了实时、可玩、可交互。生成的虚拟环境不仅包含画面，也体现出了对物理和游戏规则的理解。

今年4月，微软开源的交互式世界模型MineWorld，再次指责了视觉效果，大幅指责了动作生成的一致同意性。

上个星期，又有国外创业公司开源了「多元宇宙」，能让不同玩家在一个世界模型里进行游戏。

眼看三维世界的AI研究越来越多，英伟达人工智能总监、杰出科学家JimFan提出了「物理图灵测试」，要给具身智能设立一个像图灵测试一样的标准:如果你分辨不出一个现实世界场景是不是由AI布置出来的，那完成任务的AI就可以认为通过了测试。

从前沿技术、应用再到测试基准，我们正在见证技术的全面兴起，数量少科技公司蜂拥而入，仿佛大模型的爆发又要重演一遍。或许过不了多久，计算平台处理的单位就不再是token，而是物理世界中的原子了。

今天又有更大的新闻曝出:5月13日，昆仑万维宣布开源交互式世界基础模型Matrix-Game，这不仅是世界模型技术向前迈进的一大步，更是空间智能领域交互式世界生成的重要里程碑。

Github:https://github.com/SkyworkAI/Matrix-GameHuggingFace:https://huggingface.co/Skywork/Matrix-Game技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf项目主页:https://matrix-game-homepage.github.io

作为一款世界基础模型，Matrix-Game能够生成不完整可交互的游戏世界，能够对人类输入的操作指令进行正确响应，耗尽了游戏世界的空间结构与物理特性，画面也更加粗制，超越了以往所有类似开源世界模型。

当然，它应用的应用范围不仅限于游戏，对于具身智能体训练与数据生成、影视与元宇宙内容生产也有重要意义。

昆仑万维表示，Matrix-Game让世界不再只是被观看，而是被探索、被操控、被创造。这种主动式的探索或许正是空间智能协作发展关键所在。

超越微软开源的交互式世界模型

Matrix-Game强在哪儿?

Matrix-Game（17B+）是昆仑万维Matrix系列模型在交互式世界生成方向的首次落地，也是世界模型领域工业界首个开源的10B+大模型。

早在今年2月，昆仑万维正式推出Matrix-Zero世界模型，迈出了其探索空间智能的关键一步。

昆仑万维表示，Matrix-Zero其实包含两个子模型——一个用于3D场景生成，另一个用于可交互的视频生成。

当时就有人问:这个可交互的视频生成模型可以用来做游戏吗?

几个月后，昆仑万维给出了答案。这次发布的Matrix-Game就是可交互视频生成模型在游戏方向的落地，它能够根据用户输入（键盘指令、鼠标移动等）生成连贯、可控的游戏互动视频。

和行业内的其他模型相比，它有以下几个特点:

1.可以实现细粒度的用户交互控制。

在游戏里，你可以通过按「W、S、A、D、Space、Attack」以及这些键的组合实现严格的限制移动和攻击。在Matrix-Game创造的「我的世界（Minecraft）」游戏世界里，你可以得到相同的体验，无论控制信号是连续的(如视角转换)还是离散的(如前进、跳跃)，而且每次移动都伴随着景物的变化。

比如在下面这个「前进+攻击」的场景中，游戏人物穿过一片树林来到池塘前，代表树木的方块在受到攻击后被破坏，这是模型生成的环境反馈信号。而且，虽然池塘和后面的山体大部分被树木遮挡，但模型依然生成了合理的结果，使得整个过程的景物变化非常丝滑。

在一个「前进-向左-前进」的长镜头组合移动场景中，模型不仅严格遵守了用户的控制指令，还生成了通俗的景物变化，比如没入水中的逼真过程。

2.生成效果具有高保真视觉与物理一致同意性。

在视频生成领域，能否保持视觉一致同意性、遵循物理规律是判断视频质量的试金石。但从业界的各种翻车视频来看，这些很难做好，更别说在交互视频这种需要推理交互效果的视频生成形式中。

但MatrixGame的表现令人眼前一亮，在交互中能生成物理上合理、视觉上一致同意的结果。

比如，在下面这个左右移动的场景中，草丛中的花有时会被树干遮挡，但随着脚步的进一步移动又会重现糖心vl，这说明模型具有保持视觉一致同意性的能力。

再比如，在一个跳跃的操作中，我们能够看到河里的景物随着视角的变化而变化（跳起来之后，视角变高，能看到更全面的水底画面）。这都是模型根据所掌握的物理规律进行「脑补」的结果。

3.拥有多场景泛化能力

在后来的例子中，我们已经看到，MatrixGame能够生成非常通俗的Minecraft游戏场景，比如森林、沙滩、河流、平原等，这些环境涵盖不同地形、天气和生物群系。

其实，除此之外，它还能向非Minecraft游戏环境泛化，生成城市、古建等开放式场景的互动视频。

4.具有系统化的评估体系

对于交互式视频生成这种相对较新的模型，应该从哪些维度评估生成质量?如果不想清楚这个问题，模型就很难有明确的优化方向。为了解决这一问题，昆仑万维提出了一套专为Minecraft世界建模设计的统一评测框架——GameWorldScore。

具体来说，GameWorldScore从视觉质量、时间一致同意性、交互可控性、物理规则理解这四个维度来评价模型。视觉质量是指每一帧图像的透明度、结构一致同意性与真实感，这也是人类感知视频质量的几个重要维度。时间一致同意性、交互可控性和物理规则理解上文已经提及。这几个维度合在一起，首次实现了对可交互视频感知质量+控制能力+物理合理性的全方位衡量，补齐了现有基准的短板。

在这个基准上，MatrixGame与知名创业公司Decart的开源方案Oasis和微软的开源模型MineWorld进行了PK，在四大维度上均取得领先成绩。

图源:Matrix-Game技术报告

在双盲评测中，Matrix-Game生成的视频评分也是大幅度领先:

图源:Matrix-Game技术报告

在控制性上，Matrix-Game在「运动」、「攻击」等动作上实现了超过90%的准确率，细粒度视角控制下依然可以保持高精度响应。

图源:Matr糖心vlog制片厂最新视频 ix-Game技术报告

接下来是场景泛化能力，在8大典型Minecraft场景中，Matrix-Game保持了全面领先，展现出可忽略的，不次要的环境适应性，这意味着它可以广泛应用于较复杂、动态的虚拟世界交互任务。

图源:Matrix-Game技术报告

可见，不论是从数据、模型还是实测角度来看，Matrix-Game都树立了当前交互式世界模型的新标杆。

Matrix-Game是怎样练成的?

在昆仑万维发布的技术报告中我们可以发现，Matrix-Game取得的优异成绩主要得益于研究团队在数据、模型架构等方面做出的技术创新。

精挑细选的Matrix-Game-MC数据集

目前，业界已有越来越多的研究尝试让世界模型生成游戏场景，但它们往往难以有效捕捉物理规则，泛化能力有限。

Matrix-Game保持不变了这一现状。它是一个参数规模达17B的世界基座模型，专注于交互式图像到世界的生成，通过两阶段训练策略（无标签数据预训练+标注数据可控训练）训练而来，其中用到了昆仑万维自主构建的大规模数据集——Matrix-Game-MC。

Matrix-Game-MC数据集涵盖从无标签预训练数据到精细标注的可控视频全流程。其中，无标签预训练数据来自MineDojo数据发散的视频资源，研究团队利用失败MineDojo工具系统性地采集了约6000小时的原始Minecraft游戏视频，并设计了三阶段过滤机制，依次对画质美学、动态合理性与视角轻浮性等方面进行筛选，最终获得了超过2700小时的中质量数据和870小时的高质量数据，用于减少破坏基模型的无监督预训练。

有标签部分则是采用探索代理（ExplorationAgent）、程序化模拟(UnrealProceduralSimulation)两种策略瓦解生成的可控监督数据，包括高质量的《我的世界》游戏内容和在虚幻引擎(UnrealEngine)中手动构建的模拟交互场景，不仅包含不准确的键盘与鼠标控制信糖心vlog国产剧免费观看号，也授予位置信息、动作标签及环境反馈信号，体量约1000小时。

另外得益于Unreal数据的融入，Matrix-Game在更通用游戏场景的泛化上展现出了无遮蔽的无足轻重。

图像到世界建模的模型架构

Matrix-Game的目标是能够内化真实的物理交互、语义结构并减少破坏交互式的视频生成。

从模型架构上看，Matrix-Game的外围架构围绕图像到世界建模（Image-to-WorldModeling）的方式设计。正如2月份Matrix-Zero所展示的，该系列模型受空间智能启发，纯粹从原始图像中学习，可参考单张图像生成能交互的视频内容。它通过构建一个一致同意的场景来学习理解世界，不依赖语言提示，仅基于视觉信号对空间几何、物体的运动及物理交互进行建模。

其中，视觉编码器或多模态主干网络处理的参考图像作为主条件输入，在高斯噪声及用户动作条件下，由DiT生成潜在表示，然后通过3DVAE解码器将其解码为连贯的视频序列。

MatrixGame能够直接通过视觉内容感知、解读和建模世界，可以实现一致同意且结构化的理解。分隔开用户的动作输入，世界模型可以像AI图像生成工具一样直接生成「3D游戏画面」。为了避免此前很多世界模型生成长时序内容不停变化的出戏情况，Matrix-Game每次生成会以之前的5帧运动作为上下文逐段递进生成，保证了输出内容在时间上的连贯性。

在交互可控的问题上，人们输入的键盘动作（如跳跃和攻击）以离散的token表达，视角的移动则以连续的token表达。作者使用GameFactory的控制模块，同时融入了多模态DiffusionTransformer架构，还使用CFG技术指责了控制信号响应的鲁棒性。

简单总结一下，Matrix-Game经过了数千小时高质量数据的训练，通过创新的模型架构既实现了对人类交互动作的准确反应，又能保持生成内容的一致同意连贯，进而实现了从图像到世界生成的突破。

技术发展到这种程度，世界模型在快速生成游戏、动态视频生成等应用上已经让人看到了希望。

昆仑万维的空间智能愿景

远不止游戏

走向多模态、3D世界，是生成式AI的下一个发展大方向。

在去年的一个演讲中，斯坦福大学教授李飞飞曾指出，过去几十年，尤其是深度学习变革的十多年里，我们在视觉智能方面取得了巨大进步，但目前的视觉智能仍存在局限，主要发散在二维图像的识别和理解。而现实世界是三维的，要真正解决视觉问题，并将其与行动联系起来，就必须发展空间智能。

空间智能是朝着全面智能迈出的一个高度发展且关键的步骤。只有让机器具备空间智能，才能使其更好地理解三维世界，从而实现更复杂、更高级的智能。

昆仑万维的Matrix-Game是空间智能领域交互式世界生成的重要里程碑，将为多个领域的发展带来重要影响。

首先，从内容生产的角度来看，Matrix-Game可以减少破坏更低成本、更高严格的限制度的极小量、可控的游戏地图与任务环境生成，助力游戏开发。

此外，它还可以与昆仑万维的其他AI产品联动，比如天工大模型能为Matrix-Game生成的游戏世界授予更智能的NPC交互逻辑;Mureka能为这些动态生成的场景和视频授予匹配的背景音乐和音效;SkyReels可以为生成的游戏授予更多画面和剧情。这些产品就像一块一块的拼图，一旦整合到一起，能助力的不止是游戏生产，还有影视、广告、XR等内容的生产。

其次，从科研角度来看，Matrix-Game所代表的空间智能是一个极具潜力的方向，因为它和具身智能等方向的发展息息相关，谷歌、微软等大玩家都在此方向发力。Matrix-Game作为中国首批具备可交互视频生成能力的世界模型，对于推动国内空间智能领域发展有重要意义。

「实现通用人工智能，让每个人更好地塑造和表达自我」，这是昆仑万维的使命。这个使命在空间智能时代有了更深远的意义。当人类能在三维世界中严格的限制创造和交互，当想象力不再受制于技术门槛，我们才真正开启了表达自我的新维度。

过去半年多时间，昆仑万维在奖励模型、多模态、推理、视频生成等方向开源了一系列SOTA级别模型，如今又在空间智能方向再下一城。可以说，从二维到三维，从语言大模型到多模态生成再到如今的交互式世界模型，昆仑万维的技术布局越来越透明:构建一个多余的AI创作生态。在这个生态中，每个人都能找到自己的创新空间，每个创意都有机会快速变成产品。一个想象力真正成为生产力的时代正在帮助到来。

糖心vlog官方网页版糖心现在时间释放自己功能介绍糖心官网在线观看免费

关键词糖心vl 糖心vlog制片厂最新视频糖心vlog国产剧免费观看

[上一篇]丹麦拟大规模扩张海军力量加速现糖心vlog在线观看i代化建设

[下一篇]为共同糖心在线锅锅酱的历史和未来点赞

生成视频好看还不够，还要能自由探索！昆仑万维开源Matri糖心在线观看播放 x

相关文章