别再只看总分了：LVBench、MLVU、Video-MME、LongVideoBench，到底在测什么？

这两年视频多模态模型的讨论很热，但很多判断其实还停留在一个很粗的层面：某个模型“视频理解很强”，或者某个新模型“长视频能力领先”。问题是，这种说法往往没有说明白：它到底强在哪一类视频任务上？是能看懂 30 秒短视频，还是能在 40 分钟视频里找到关键线索？是靠字幕辅助拿分，还是靠真正的视频时序理解？

如果你最近在关注长视频理解，LVBench、MLVU、Video-MME、LongVideoBench 这四个 benchmark 基本绕不过去。它们经常一起出现在论文、leaderboard、模型发布稿里，但它们并不是同一种东西。把这四个 benchmark 混着看，结论很容易失真；把它们拆开看，反而能更准确地判断一个模型到底值不值得关注。

我的判断很直接：这四个 benchmark 真正重要的地方，不是“谁分高”，而是它们分别代表了四种不同的评测取向。 对开发者和独立开发者来说，这决定了你应该怎么读榜、怎么选模型、怎么设计自己的视频 Agent 或产品验证路径。

先说结论：四个 benchmark 分别在测四件不同的事

如果只想先抓重点，可以这么理解：

Video-MME 更像视频领域的“通用体检表”，覆盖短、中、长视频，还区分是否提供字幕，适合看模型的整体视频理解面貌。
MLVU 更强调“多任务长视频理解”，看的是模型能不能同时处理摘要、检索、推理、全局与局部信息整合。
LVBench 更偏向真正把模型拉到长视频、长时记忆和信息抽取的压力场里，重点是长程理解而不是短视频问答的延长版。
LongVideoBench 最有意思的地方在于它强调 referring reasoning，也就是题目本身会引用视频里的某段上下文，逼模型去做跨时段定位和推理，而不是靠单帧偏置蒙对。

换句话说，这不是四个“谁更权威”的 benchmark，而是四把不同的尺子。 你拿错尺子，就会得出错误的工程结论。

1. Video-MME：最适合看“总体视频能力”，但不适合单独判断长视频能力

Video-MME 之所以传播最广，一个重要原因是它设计得很“标准化”。它覆盖 6 个主视觉领域、30 个子领域，视频时长从 11 秒到 1 小时，同时显式区分是否提供字幕，并使用人工标注的 900 个视频、2700 组问答来做评估。这种设计很适合拿来横向比较不同模型的综合视频理解表现。

它的价值在于：你能比较快看出一个模型是不是只有 demo 能打，还是在较广泛的视频类型上都过得去。 尤其“with subtitles / without subtitles”的拆分很有意义。因为现实里很多所谓视频理解，其实是“视频+字幕阅读理解”。把这两项放在一起看，至少能看出模型到底有多少分数来自视觉时序理解，有多少来自文本补偿。

但 Video-MME 也有边界。它虽然覆盖 long video，但它本质上还是一个广覆盖的综合 benchmark。这意味着它非常适合做模型总览，不太适合单独用来判断“一个模型是否真的擅长超长上下文视频推理”。所以如果某个模型只拿 Video-MME 成绩说自己“长视频遥遥领先”，你最好多看一眼别的 benchmark。

2. MLVU：更像工程视角下的能力拆解表

MLVU 的一个优势，是它不是简单拉长视频时长，而是把长视频理解拆成了多类任务来测。公开介绍里，MLVU 覆盖 3 分钟到 2 小时的视频，并设计了 9 类任务，目标是评估模型如何同时处理全局信息和局部信息。

这件事为什么重要？因为真正做产品时，用户并不会只问一种问题。有人要摘要，有人要找片段，有人要问事件顺序，有人要问某个局部细节和整体叙事之间的关系。MLVU 更接近“一个视频 Agent 在真实工作里会被怎么折腾”。

对开发者来说，MLVU 的参考价值往往高于“单一总分”。如果你在做会议视频分析、课程内容提取、访谈总结、审核辅助或者长视频知识抽取，这类任务几乎都不是单点识别，而是多种能力叠加。MLVU 这种拆法更容易暴露模型短板：能不能保持长上下文？能不能在全局摘要之外记住局部细节？能不能把视觉内容和语言问题对齐？

我会把 MLVU 归类为：很适合工程选型时做二次判断的 benchmark。它不像 Video-MME 那么“媒体友好”，但比单纯看一行 leaderboard 更接近实际使用成本。

3. LVBench：重点不在“长”，而在“长时间记忆压力下还能不能理解”

LVBench 的定位相对明确：它不是要做一个大而全的视频榜单，而是要把模型放进真正偏长视频的环境里，去测它的长程记忆、持续理解和信息抽取能力。它的数据来源包含电视剧、体育直播和监控类视频，这个取向很务实，因为这些场景本来就要求模型跨更长时间维度做理解，而不是只盯某个高光片段。

我觉得 LVBench 值得关注，不只是因为它“更难”，而是因为它代表了一种更贴近现实的视频理解问题：很多有价值的长视频任务，难点并不是识别一帧画面里有什么，而是在几十分钟甚至更长的时间里，记住发生过什么、什么时候发生、不同事件之间如何关联。

这对个人开发者尤其关键。因为你如果想做真正有付费可能的视频产品，往往不会停留在“看图说话式视频 QA”。更有价值的方向通常是会议、课程、访谈、体育、安防、培训、用户研究录像这类长内容。而 LVBench 更能提醒人：长视频产品的瓶颈，常常是检索、记忆和抽取链路，不只是模型参数大不大。

所以我会把 LVBench 看成一个信号：如果某个模型在这里表现差，你最好不要太快把它放进重度长视频工作流里。演示能跑通，不等于业务能稳定。

4. LongVideoBench：它测到的，是很多 benchmark 还没真正测到的东西

LongVideoBench 最值得写，不是因为它名字里有个 long，而是它试图解决视频 benchmark 里一个老问题：单帧偏置和稀疏采样偏置。 很多视频问答题，模型其实不需要真的理解“长视频”，只要抓住一帧、几帧或者某句字幕，就能把题做出来。这会让不少模型在榜单上显得比实际更强。

LongVideoBench 提出的 referring reasoning 很有价值。它的问题会明确引用视频里相关上下文，迫使模型去定位前后片段，再结合细节完成推理。公开资料显示，它包含 3763 个视频、6678 道人工标注选择题，并细分成 17 类问题，视频与字幕交织输入最长可达 1 小时。

这类设计更接近真正的“长上下文多模态推理”。它不是在问模型会不会看视频，而是在问：当问题依赖多个时段、多个线索、视频和字幕共同参与时，你还能不能稳定地找到证据并得出答案？

从工程角度看，LongVideoBench 的启发很强。它说明一件事：长视频能力不是简单把上下文窗口做大就完了，真正的核心在于检索策略、帧采样策略、跨模态对齐，以及是否能在长链路里保住有效证据。很多模型发布时喜欢强调“支持一小时视频输入”，但如果没有好的证据定位机制，这种能力很容易停留在纸面参数上。

把四个 benchmark 放在一起看，能看出什么趋势？

我自己的看法是，这四个 benchmark 放在一起，至少能看出三个趋势。

第一，视频理解正在从“看见了什么”转向“长时间里发生了什么”。 以前很多评测更像是图像能力的延伸，现在越来越多 benchmark 开始强调时序、事件关联、证据定位和跨时间推理。

第二，字幕仍然是现实世界里绕不过去的重要辅助信息，但不能把它当成视频理解本身。 Video-MME 这种显式区分是否带字幕的设计，实际上就是在提醒大家：多模态评测要把“视觉能力”和“文本补偿”拆开看。

第三，真正决定产品可用性的，未必是 benchmark 总分，而是你面对的任务形态和 benchmark 偏好是否一致。 如果你做的是视频摘要，可能更该看 MLVU；如果你做的是复杂长视频检索和问答，LongVideoBench、LVBench 会更有参考价值；如果你只是想先筛掉明显不行的模型，Video-MME 仍然是很好的起点。

开发者和独立开发者应该怎么用这四个 benchmark？

我的建议是：

不要再拿单一 benchmark 排名当最终结论，尤其不要直接把它翻译成“产品效果”。
先定义你要解决的是哪类视频问题，再去找更匹配的 benchmark 看结果。
如果你在做长视频 Agent，至少要同时关注“是否依赖字幕”“是否需要跨段推理”“是否强调长程记忆”这三个维度。
如果你是个人开发者，别急着追最新最大模型，先验证自己的场景更接近哪一种 benchmark，再决定是堆模型、堆采样、做检索，还是把任务重写成分段处理流程。

说得更现实一点：很多长视频产品的问题，不是没有更强模型，而是没有把任务拆对。 benchmark 真正的价值，不只是帮你选模型，也是帮你识别问题结构。

结论

如果只让我给一句结论，我会说：LVBench、MLVU、Video-MME、LongVideoBench 不是四个互相替代的榜单，而是当前视频理解评测从“短视频感知”走向“长上下文推理”的四个路标。

对普通看热闹的人来说，记住谁第一名就够了。但对开发者来说，更重要的问题是：这个 benchmark 为什么这样设计，它在逼模型暴露什么弱点，它和你的真实任务到底有多接近。想明白这一点，比追每周更新一次的排行榜有价值得多。

我的建议是重度关注，但别把它们当成神谕。把 benchmark 当仪表盘，不要当方向盘。

别再只看总分了：LVBench、MLVU、Video-MME、LongVideoBench，到底在测什么？

先说结论：四个 benchmark 分别在测四件不同的事

1. Video-MME：最适合看“总体视频能力”，但不适合单独判断长视频能力

2. MLVU：更像工程视角下的能力拆解表

3. LVBench：重点不在“长”，而在“长时间记忆压力下还能不能理解”

4. LongVideoBench：它测到的，是很多 benchmark 还没真正测到的东西

把四个 benchmark 放在一起看，能看出什么趋势？

开发者和独立开发者应该怎么用这四个 benchmark？

结论

参考资料

发送评论编辑评论

别再只看总分了：LVBench、MLVU、Video-MME、LongVideoBench，到底在测什么？

先说结论：四个 benchmark 分别在测四件不同的事

1. Video-MME：最适合看“总体视频能力”，但不适合单独判断长视频能力

2. MLVU：更像工程视角下的能力拆解表

3. LVBench：重点不在“长”，而在“长时间记忆压力下还能不能理解”

4. LongVideoBench：它测到的，是很多 benchmark 还没真正测到的东西

把四个 benchmark 放在一起看，能看出什么趋势？

开发者和独立开发者应该怎么用这四个 benchmark？

结论

参考资料

发送评论 编辑评论

推荐文章

发送评论编辑评论