gate交易所全球最大的区块链首发平台

一键参与，免费领空投。累计空投 $111,868,785

复旦联合美团开源WBench

2026-05-28 gate交易所

随着生成式人工智能持续向视频与交互领域深入，行业对“世界模型”能力的关注正在快速提升。近日，复旦大学与美团LongCat团队联合发布并开源交互式世界模型评测基准WBench，这一消息在AI研究圈引发广泛讨论。相比以往只关注画面质量、分辨率或视觉美感的视频评测体系，WBench更强调模型对物理规律、时空一致性以及交互控制能力的真实理解。对于当前正在竞争下一代AI入口的科技企业而言，这意味着世界模型的评价标准开始从“会生成”转向“能理解、能互动、能持续推演”。这一变化的重要性在于，它不仅关系到视频生成模型的技术路线，也可能影响未来机器人、自动驾驶、数字人和虚拟世界的发展方向。

从公开的信息来看，WBench的设计思路明显不同于传统视频测试框架。首先，该基准共包含289个测试案例和1058轮交互任务，覆盖第一人称与第三人称双重视角，规模在同类开源项目中相对领先。测试内容不仅要求模型生成画面，还需要在连续交互中维持逻辑稳定。例如，在导航控制任务中，模型需要准确理解空间关系；在主体动作测试中，则要求角色动作与环境反馈保持协调。其次，WBench引入了导航控制、事件编辑、视角切换等复杂场景，这意味着模型不再只是“被动生成视频”，而是开始具备一定程度的环境推演能力。另一个值得注意的点是，其评估体系包含22项自动指标，并且与人工盲测结果的Spearman秩相关系数达到0.94以上，说明自动评测结果与真实用户体验之间已经建立较高一致性。相比过去大量依赖人工主观评分的方法，这种自动化评测体系能够显著提高模型研发效率。

在具体成绩方面，多个开源世界模型在不同维度展现出差异化优势。比如hy-world 1.5在导航控制能力上取得最高评分，说明其对空间路径和环境变化的处理更加稳定；lingbot-world则在一致性方面排名领先，代表其在长序列生成中的画面连贯性更强；matrix-game 3.0则在动作导航测试中表现突出。一个明显变化是，开源模型正在缩小与大型商业闭源模型之间的差距，甚至在部分任务上形成反超。这意味着世界模型领域可能不会像过去的大语言模型市场那样，完全由少数超级科技公司垄断。

WBench受到关注的背后，其实反映出AI行业竞争重点的变化。过去两年，视频生成模型主要围绕清晰度、光影效果和生成速度展开竞争，但随着技术逐渐成熟，单纯提升“画面好看程度”已经难以构成明显壁垒。尤其是在Sora等模型出现后，行业开始意识到，真正决定未来应用价值的并不是短视频生成能力，而是模型能否理解现实世界的规则。例如，一个真正成熟的世界模型，不仅需要知道“球会滚动”，还要理解斜坡、碰撞、重力以及角色行为之间的逻辑关联。WBench的测试结果也指出，目前视频质量提升已接近阶段性饱和，而交互控制与物理建模能力却仍存在巨大提升空间，这意味着下一阶段的竞争焦点将更多集中在“智能理解”而非“视觉表现”。

从产业角度看，世界模型的重要性正在快速上升。当前无论是自动驾驶、机器人训练，还是元宇宙场景构建，都需要AI具备对现实环境的动态理解能力。传统方法往往依赖大量真实数据采集，成本高且效率有限，而世界模型的目标则是通过模拟环境完成学习和推演。例如，在机器人训练中，AI可以先在虚拟环境中完成动作学习，再迁移到现实场景；在自动驾驶领域，世界模型也能够提前模拟复杂路况和极端环境。值得注意的是，越来越多互联网企业和AI创业公司开始把“世界模型”视为下一代基础设施，而不仅仅是实验室概念。包括谷歌、OpenAI、Meta在内的国际科技巨头，都已将交互式视频生成与环境模拟列为重点方向。

与此同时，开源生态的崛起也是此次事件的重要背景。过去，大型AI模型往往掌握在少数企业手中，外界难以了解其真实能力边界。但随着开源社区快速发展，越来越多研究团队开始通过公开模型与评测体系推动行业透明化。WBench的价值不仅在于提供测试工具，更在于它建立了一套相对统一的评价语言。未来不同模型之间的比较，不再只是“谁的视频更逼真”，而是“谁更理解现实世界”。这一点对于产业落地尤为关键，因为企业客户真正关心的是模型能否在复杂场景中稳定运行，而不是仅仅生成几秒钟的炫酷演示视频。

从更长周期来看，世界模型很可能成为AI技术演进中的关键节点。当前的大语言模型已经证明，AI可以在文本层面形成复杂推理能力，而世界模型则试图进一步把这种能力扩展到物理世界与空间环境。它不仅意味着视频生成技术升级，也可能推动AI从“聊天工具”向“环境智能体”转变。未来，AI助手或许不仅能回答问题，还能理解空间、执行任务、规划路径，甚至参与现实世界中的协同工作。

此次复旦大学与美团LongCat团队开源WBench，本质上是在行业尚未形成统一标准之前，率先建立一套衡量世界模型能力的公共框架。对于研究机构而言，这有助于推动算法迭代；对于企业而言，则能降低测试与研发成本。短期来看，WBench可能主要服务于学术研究与模型竞赛，但随着世界模型商业化加速，其影响力有望进一步扩大。可以预见，未来围绕交互控制、物理一致性与环境理解的竞争，将成为AI行业新的技术主线，而评测体系本身，也会逐渐成为决定行业方向的重要基础设施。