别再只看总分了:LVBench、MLVU、Video-MME、LongVideoBench,到底在测什么?
这两年视频多模态模型的讨论很热,但很多判断其实还停留在一个很粗的层面:某个模型“视频理解很强”,或者某个新模型“长视频能力领先”。问题是,这种说法往往没有说明白:它到底强在哪一类视频任务上?是能看懂 30 秒短视频,还是能在 40 分钟视频里找到关键线索?是靠字幕辅助拿分,还是靠真正的视频时序理解?
如果你最近在关注长视频理解,LVBench、MLVU、Video-MME、LongVideoBench 这四个 benchmark 基本绕不过去。它们经常一起出现在论文、leaderboard、模型发布稿里,但它们并不是同一种东西。把这四个 benchmark 混着看,结论很容易失真;把它们拆开看,反而能更准确地判断一个模型到底值不值得关注。
我的判断很直接:这四个 benchmark 真正重要的地方,不是“谁分高”,而是它们分别代表了四种不同的评测取向。 对开发者和独立开发者来说,这决定了你应该怎么读榜、怎么选模型、怎么设计自己的视频 Agent 或产品验证路径。
先说结论:四个 benchmark 分别在测四件不同的事
如果只想先抓重点,可以这么理解:
- Video-MME 更像视频领域的“通用体检表”,覆盖短、中、长视频,还区分是否提供字幕,适合看模型的整体视频理解面貌。
- MLVU 更强调“多任务长视频理解”,看的是模型能不能同时处理摘要、检索、推理、全局与局部信息整合。
- LVBench 更偏向真正把模型拉到长视频、长时记忆和信息抽取的压力场里,重点是长程理解而不是短视频问答的延长版。
- LongVideoBench 最有意思的地方在于它强调 referring reasoning,也就是题目本身会引用视频里的某段上下文,逼模型去做跨时段定位和推理,而不是靠单帧偏置蒙对。
换句话说,这不是四个“谁更权威”的 benchmark,而是四把不同的尺子。 你拿错尺子,就会得出错误的工程结论。
1. Video-MME:最适合看“总体视频能力”,但不适合单独判断长视频能力
Video-MME 之所以传播最广,一个重要原因是它设计得很“标准化”。它覆盖 6 个主视觉领域、30 个子领域,视频时长从 11 秒到 1 小时,同时显式区分是否提供字幕,并使用人工标注的 900 个视频、2700 组问答来做评估。这种设计很适合拿来横向比较不同模型的综合视频理解表现。
它的价值在于:你能比较快看出一个模型是不是只有 demo 能打,还是在较广泛的视频类型上都过得去。 尤其“with subtitles / without subtitles”的拆分很有意义。因为现实里很多所谓视频理解,其实是“视频+字幕阅读理解”。把这两项放在一起看,至少能看出模型到底有多少分数来自视觉时序理解,有多少来自文本补偿。
但 Video-MME 也有边界。它虽然覆盖 long video,但它本质上还是一个广覆盖的综合 benchmark。这意味着它非常适合做模型总览,不太适合单独用来判断“一个模型是否真的擅长超长上下文视频推理”。所以如果某个模型只拿 Video-MME 成绩说自己“长视频遥遥领先”,你最好多看一眼别的 benchmark。
2. MLVU:更像工程视角下的能力拆解表
MLVU 的一个优势,是它不是简单拉长视频时长,而是把长视频理解拆成了多类任务来测。公开介绍里,MLVU 覆盖 3 分钟到 2 小时的视频,并设计了 9 类任务,目标是评估模型如何同时处理全局信息和局部信息。
这件事为什么重要?因为真正做产品时,用户并不会只问一种问题。有人要摘要,有人要找片段,有人要问事件顺序,有人要问某个局部细节和整体叙事之间的关系。MLVU 更接近“一个视频 Agent 在真实工作里会被怎么折腾”。
对开发者来说,MLVU 的参考价值往往高于“单一总分”。如果你在做会议视频分析、课程内容提取、访谈总结、审核辅助或者长视频知识抽取,这类任务几乎都不是单点识别,而是多种能力叠加。MLVU 这种拆法更容易暴露模型短板:能不能保持长上下文?能不能在全局摘要之外记住局部细节?能不能把视觉内容和语言问题对齐?
我会把 MLVU 归类为:很适合工程选型时做二次判断的 benchmark。它不像 Video-MME 那么“媒体友好”,但比单纯看一行 leaderboard 更接近实际使用成本。
3. LVBench:重点不在“长”,而在“长时间记忆压力下还能不能理解”
LVBench 的定位相对明确:它不是要做一个大而全的视频榜单,而是要把模型放进真正偏长视频的环境里,去测它的长程记忆、持续理解和信息抽取能力。它的数据来源包含电视剧、体育直播和监控类视频,这个取向很务实,因为这些场景本来就要求模型跨更长时间维度做理解,而不是只盯某个高光片段。
我觉得 LVBench 值得关注,不只是因为它“更难”,而是因为它代表了一种更贴近现实的视频理解问题:很多有价值的长视频任务,难点并不是识别一帧画面里有什么,而是在几十分钟甚至更长的时间里,记住发生过什么、什么时候发生、不同事件之间如何关联。
这对个人开发者尤其关键。因为你如果想做真正有付费可能的视频产品,往往不会停留在“看图说话式视频 QA”。更有价值的方向通常是会议、课程、访谈、体育、安防、培训、用户研究录像这类长内容。而 LVBench 更能提醒人:长视频产品的瓶颈,常常是检索、记忆和抽取链路,不只是模型参数大不大。
所以我会把 LVBench 看成一个信号:如果某个模型在这里表现差,你最好不要太快把它放进重度长视频工作流里。演示能跑通,不等于业务能稳定。
4. LongVideoBench:它测到的,是很多 benchmark 还没真正测到的东西
LongVideoBench 最值得写,不是因为它名字里有个 long,而是它试图解决视频 benchmark 里一个老问题:单帧偏置和稀疏采样偏置。 很多视频问答题,模型其实不需要真的理解“长视频”,只要抓住一帧、几帧或者某句字幕,就能把题做出来。这会让不少模型在榜单上显得比实际更强。
LongVideoBench 提出的 referring reasoning 很有价值。它的问题会明确引用视频里相关上下文,迫使模型去定位前后片段,再结合细节完成推理。公开资料显示,它包含 3763 个视频、6678 道人工标注选择题,并细分成 17 类问题,视频与字幕交织输入最长可达 1 小时。
这类设计更接近真正的“长上下文多模态推理”。它不是在问模型会不会看视频,而是在问:当问题依赖多个时段、多个线索、视频和字幕共同参与时,你还能不能稳定地找到证据并得出答案?
从工程角度看,LongVideoBench 的启发很强。它说明一件事:长视频能力不是简单把上下文窗口做大就完了,真正的核心在于检索策略、帧采样策略、跨模态对齐,以及是否能在长链路里保住有效证据。很多模型发布时喜欢强调“支持一小时视频输入”,但如果没有好的证据定位机制,这种能力很容易停留在纸面参数上。
把四个 benchmark 放在一起看,能看出什么趋势?
我自己的看法是,这四个 benchmark 放在一起,至少能看出三个趋势。
第一,视频理解正在从“看见了什么”转向“长时间里发生了什么”。 以前很多评测更像是图像能力的延伸,现在越来越多 benchmark 开始强调时序、事件关联、证据定位和跨时间推理。
第二,字幕仍然是现实世界里绕不过去的重要辅助信息,但不能把它当成视频理解本身。 Video-MME 这种显式区分是否带字幕的设计,实际上就是在提醒大家:多模态评测要把“视觉能力”和“文本补偿”拆开看。
第三,真正决定产品可用性的,未必是 benchmark 总分,而是你面对的任务形态和 benchmark 偏好是否一致。 如果你做的是视频摘要,可能更该看 MLVU;如果你做的是复杂长视频检索和问答,LongVideoBench、LVBench 会更有参考价值;如果你只是想先筛掉明显不行的模型,Video-MME 仍然是很好的起点。
开发者和独立开发者应该怎么用这四个 benchmark?
我的建议是:
- 不要再拿单一 benchmark 排名当最终结论,尤其不要直接把它翻译成“产品效果”。
- 先定义你要解决的是哪类视频问题,再去找更匹配的 benchmark 看结果。
- 如果你在做长视频 Agent,至少要同时关注“是否依赖字幕”“是否需要跨段推理”“是否强调长程记忆”这三个维度。
- 如果你是个人开发者,别急着追最新最大模型,先验证自己的场景更接近哪一种 benchmark,再决定是堆模型、堆采样、做检索,还是把任务重写成分段处理流程。
说得更现实一点:很多长视频产品的问题,不是没有更强模型,而是没有把任务拆对。 benchmark 真正的价值,不只是帮你选模型,也是帮你识别问题结构。
结论
如果只让我给一句结论,我会说:LVBench、MLVU、Video-MME、LongVideoBench 不是四个互相替代的榜单,而是当前视频理解评测从“短视频感知”走向“长上下文推理”的四个路标。
对普通看热闹的人来说,记住谁第一名就够了。但对开发者来说,更重要的问题是:这个 benchmark 为什么这样设计,它在逼模型暴露什么弱点,它和你的真实任务到底有多接近。想明白这一点,比追每周更新一次的排行榜有价值得多。
我的建议是重度关注,但别把它们当成神谕。把 benchmark 当仪表盘,不要当方向盘。