复旦联合美团开源WBench

2026-05-28 gate交易所

随着生成式人工智能持续向视频与交互领域深入,行业对“世界模型”能力的关注正在快速提升。近日,复旦大学与美团LongCat团队联合发布并开源交互式世界模型评测基准WBench,这一消息在AI研究圈引发广泛讨论。相比以往只关注画面质量、分辨率或视觉美感的视频评测体系,WBench更强调模型对物理规律、时空一致性以及交互控制能力的真实理解。对于当前正在竞争下一代AI入口的科技企业而言,这意味着世界模型的评价标准开始从“会生成”转向“能理解、能互动、能持续推演”。这一变化的重要性在于,它不仅关系到视频生成模型的技术路线,也可能影响未来机器人、自动驾驶、数字人和虚拟世界的发展方向。

从公开的信息来看,WBench的设计思路明显不同于传统视频测试框架。首先,该基准共包含289个测试案例和1058轮交互任务,覆盖第一人称与第三人称双重视角,规模在同类开源项目中相对领先。测试内容不仅要求模型生成画面,还需要在连续交互中维持逻辑稳定。例如,在导航控制任务中,模型需要准确理解空间关系;在主体动作测试中,则要求角色动作与环境反馈保持协调。其次,WBench引入了导航控制、事件编辑、视角切换等复杂场景,这意味着模型不再只是“被动生成视频”,而是开始具备一定程度的环境推演能力。另一个值得注意的点是,其评估体系包含22项自动指标,并且与人工盲测结果的Spearman秩相关系数达到0.94以上,说明自动评测结果与真实用户体验之间已经建立较高一致性。相比过去大量依赖人工主观评分的方法,这种自动化评测体系能够显著提高模型研发效率。

在具体成绩方面,多个开源世界模型在不同维度展现出差异化优势。比如hy-world 1.5在导航控制能力上取得最高评分,说明其对空间路径和环境变化的处理更加稳定;lingbot-world则在一致性方面排名领先,代表其在长序列生成中的画面连贯性更强;matrix-game 3.0则在动作导航测试中表现突出。一个明显变化是,开源模型正在缩小与大型商业闭源模型之间的差距,甚至在部分任务上形成反超。这意味着世界模型领域可能不会像过去的大语言模型市场那样,完全由少数超级科技公司垄断。

WBench受到关注的背后,其实反映出AI行业竞争重点的变化。过去两年,视频生成模型主要围绕清晰度、光影效果和生成速度展开竞争,但随着技术逐渐成熟,单纯提升“画面好看程度”已经难以构成明显壁垒。尤其是在Sora等模型出现后,行业开始意识到,真正决定未来应用价值的并不是短视频生成能力,而是模型能否理解现实世界的规则。例如,一个真正成熟的世界模型,不仅需要知道“球会滚动”,还要理解斜坡、碰撞、重力以及角色行为之间的逻辑关联。WBench的测试结果也指出,目前视频质量提升已接近阶段性饱和,而交互控制与物理建模能力却仍存在巨大提升空间,这意味着下一阶段的竞争焦点将更多集中在“智能理解”而非“视觉表现”。

从产业角度看,世界模型的重要性正在快速上升。当前无论是自动驾驶、机器人训练,还是元宇宙场景构建,都需要AI具备对现实环境的动态理解能力。传统方法往往依赖大量真实数据采集,成本高且效率有限,而世界模型的目标则是通过模拟环境完成学习和推演。例如,在机器人训练中,AI可以先在虚拟环境中完成动作学习,再迁移到现实场景;在自动驾驶领域,世界模型也能够提前模拟复杂路况和极端环境。值得注意的是,越来越多互联网企业和AI创业公司开始把“世界模型”视为下一代基础设施,而不仅仅是实验室概念。包括谷歌、OpenAI、Meta在内的国际科技巨头,都已将交互式视频生成与环境模拟列为重点方向。

与此同时,开源生态的崛起也是此次事件的重要背景。过去,大型AI模型往往掌握在少数企业手中,外界难以了解其真实能力边界。但随着开源社区快速发展,越来越多研究团队开始通过公开模型与评测体系推动行业透明化。WBench的价值不仅在于提供测试工具,更在于它建立了一套相对统一的评价语言。未来不同模型之间的比较,不再只是“谁的视频更逼真”,而是“谁更理解现实世界”。这一点对于产业落地尤为关键,因为企业客户真正关心的是模型能否在复杂场景中稳定运行,而不是仅仅生成几秒钟的炫酷演示视频。

从更长周期来看,世界模型很可能成为AI技术演进中的关键节点。当前的大语言模型已经证明,AI可以在文本层面形成复杂推理能力,而世界模型则试图进一步把这种能力扩展到物理世界与空间环境。它不仅意味着视频生成技术升级,也可能推动AI从“聊天工具”向“环境智能体”转变。未来,AI助手或许不仅能回答问题,还能理解空间、执行任务、规划路径,甚至参与现实世界中的协同工作。

此次复旦大学与美团LongCat团队开源WBench,本质上是在行业尚未形成统一标准之前,率先建立一套衡量世界模型能力的公共框架。对于研究机构而言,这有助于推动算法迭代;对于企业而言,则能降低测试与研发成本。短期来看,WBench可能主要服务于学术研究与模型竞赛,但随着世界模型商业化加速,其影响力有望进一步扩大。可以预见,未来围绕交互控制、物理一致性与环境理解的竞争,将成为AI行业新的技术主线,而评测体系本身,也会逐渐成为决定行业方向的重要基础设施。

风险提示

登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

本站为您提供gate交易所的注册地址、加密货币及区块链的科普文章以及行业资讯等内容.