浙江大学教AI"玩拼图"：让机器真正听懂视频，而不是偷懒走捷径

这项由浙江大学与小米公司联合开展的研究发表于2026年4月，论文编号为arXiv:2604.08209，题为"OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering"，有兴趣深入了解的读者可以通过该编号查询完整论文。

研究团队面对的核心难题，可以用一句话来描述：如何让AI在同时拥有眼睛和耳朵的情况下，真正地把两者结合起来用，而不是偷懒只靠其中一个感官来解题？

一、为什么教AI"看"视频这件事，比你想象的难多了

电视机和收音机的区别，大家都很清楚。视频里有画面、有声音，两者共同讲述一个故事。对人类来说，同时接收视觉和听觉信息、然后融合理解，是一件再自然不过的事。但对于AI来说，这件事出奇地难做到。

目前最先进的大型语言模型，在纯文字的任务上已经相当厉害，比如解数学题、写代码，甚至与人对话。这类成功很大程度上依赖一种叫"强化学习后训练"的技术——简单理解，就是给AI出题、判断答案对不对、然后奖励或惩罚它，逐步让它越来越聪明。然而，把这套方法搬到视频和音频的领域里，却遇到了一个几乎无法绕过的麻烦：没有足够多的高质量标注数据。

数学题有标准答案，代码能运行就是对。但要让AI理解一段视频里视觉和听觉的深层联系，就需要人工去标注大量"这个画面配这段声音，它们之间的关系是这样的"，这种工作既昂贵又耗时，根本做不到大规模展开。

浙江大学和小米的研究团队从另一个角度切入：能不能找一个不需要人工标注的任务，让AI在完成这个任务的过程中，自然地学会整合视觉和听觉信息？他们想到了一个绝妙的类比——拼图游戏。

二、把视频打乱再还原：一个既简单又深刻的训练游戏

核心思路是这样的：拿一段视频，把它剪成若干小片段，然后打乱顺序给AI看，要求AI把正确的顺序还原出来。就像给你一本书的六个章节，但顺序被打乱了，你需要根据内容判断哪章在前、哪章在后。

这个任务之所以精妙，在于它有天然的"标准答案"——视频原本的时间顺序就是正确答案，完全不需要人类去标注。同时，要想把顺序还原得好，AI就不得不认真分析每个片段里发生了什么，以及片段之间的逻辑关系，这正是理解视频所需要的核心能力。

研究团队把这套方法命名为OmniJigsaw（"全感官拼图"）。他们把每个视频均匀切成6个片段，然后在切割处各丢掉5%的内容，目的是防止AI靠相邻片段的边界拼接特征作弊——就像拼图时不让你通过纸板背面的纹路来匹配，必须真正看图案内容。打乱后的片段交给AI，AI需要用思维链（一步步列出推理过程）来分析，最终给出原始顺序。

三、当AI拥有"双眼"和"耳朵"时，它会选择只用其中一个

研究团队最初的做法是最直接的：给AI完整的视频片段（既有画面又有声音），让它同时依靠两种信息来判断顺序。这个策略被称为"联合模态整合"（JMI）。

结果出乎意料地令人失望。AI在这种情况下的表现，反而不如只给它看画面或只让它听声音的版本。

研究团队把这个现象命名为"双模态捷径效应"。道理其实不难理解：当你同时给了AI两条路，它会自然地选择那条更容易走的路。如果一段视频的画面内容足够明显，AI就只靠画面来判断；如果音频里有清晰的语音线索，AI就只靠声音来判断。两种模态并存，反而给了它"偷懒"的机会——它不需要把两者结合起来，就能大概率答对题目，于是它就没有动力去真正学会融合理解。

从训练角度来看，这种"偷懒"是灾难性的。AI虽然答对了题，但它没有学到真正有价值的技能，就好像学生在考试中靠猜答案拿到了分数，但实际上什么都没学会。

为了解决这个问题，研究团队设计了两种更聪明的训练策略。

四、第一种解法：在整段视频层面，逼着AI只用一种感官

第一种策略叫做"样本级模态选择"（SMS）。它的工作方式分两步：首先，让AI分析整段视频，判断这个视频的时间线索主要来自画面还是声音。比如一段烹饪教学视频，厨师的操作步骤在画面上非常清晰，那画面就是主导模态；而一段播客节目，说话人一直坐在那里几乎不动，声音里的内容才是真正的故事线，那音频就是主导模态。

确定了主导模态之后，系统就只保留那个模态的信息，把另一个模态完全遮掉，然后再让AI做拼图排序。这样，AI就没有"走捷径"的机会，必须认认真真地分析它面前的那一种信息，深度理解其中的时间逻辑。

这个方法有效地消除了"捷径效应"，因为根本就没有第二条路可走。不过，它也有局限性：一段视频的主导模态是在整体层面判断的，但实际上，同一段视频里，某些片段可能画面最重要，另一些片段可能声音最关键。一刀切的全局判断，会错过这种局部的细节。

五、第二种解法：更精细的操作，逐片段决定用哪只感官

第二种策略叫做"片段级模态遮蔽"（CMM），也是研究中效果最好的方法。它的逻辑更进一步：不是在整个视频层面做决定，而是对每一个小片段单独评估，决定这个片段应该保留画面、保留声音、还是两者都保留。

具体操作分两个阶段。第一阶段，AI先按正常顺序看完所有6个片段，然后为每个片段做一个"模态标签"的决定——比如：第1片画面里有明显动作变化，标记为"只保留画面"；第3片里有关键对白，标记为"只保留声音"；第5片里画面和声音都有不可或缺的信息，标记为"两者都保留"。整体上，研究团队要求这6个片段的标签不能全是一种，必须有一定的混搭，这样才能真正锻炼AI跨模态整合的能力。

第二阶段，按照这些标签处理打乱顺序后的片段——被标为"只看画面"的，就把声音替换为静音；被标为"只听声音"的，就把画面替换为全黑。然后把这些处理过的片段打乱顺序，交给AI去排序。

这时候，AI面临的挑战就完全不同了。某些片段只有画面，某些只有声音，还有些两者都有。要把正确的顺序拼出来，AI必须在分析不同片段时不停地在"看"和"听"两种模式之间切换，并且把从不同模态获得的零散线索拼接成一个完整的时间图谱。这正是真正的跨模态理解能力。

从训练曲线来看，CMM策略下AI的任务奖励增长得更慢，这是因为题目更难了，AI不得不做更深层的分析。但最终，它学到的能力更扎实，在各种下游任务上的表现也更出色。

六、一套挑剔的"质检流水线"，确保拼图本身值得拼

研究团队很早就意识到一个关键问题：拼图本身必须是好拼图。如果给AI的训练素材是一段几乎没有变化的视频——比如一小时的会议录像，画面一直是同一间会议室，声音是均匀的背景噪声——那么打乱顺序之后，AI几乎无法判断哪段在前哪段在后，这种数据对训练完全没有价值，甚至会产生负面效果。

为此，他们设计了一条严格的两阶段筛选流水线。

第一阶段用轻量级的信号检测方法快速过滤。首先，视频必须同时有画面和声音，缺少任何一种的直接淘汰。然后，检查画面的动态性：通过计算相邻帧之间的平均绝对差值，如果超过70%的帧之间几乎没有变化，就认定这是一段低动态视频，直接丢弃。接着是音频质量检查：用音量能量（RMS）来判断是否大部分时间是静音，用频谱变化率（Spectral Flux）来判断声音是否单调无变化，不通过这两项检查的视频同样淘汰。还有一项独特的检测：用专门的语音活动检测模型（Silero VAD）来分析视频中语音内容的比例，要求在30%到80%之间——太低说明几乎没有语音信息，太高则说明画面上可能没什么有意义的视觉变化，两者都不适合作为训练素材。

通过第一阶段筛选的视频，还要接受第二阶段的语义层面审查。研究团队用一个相对轻量的多模态大模型（Qwen2.5-VL-7B）来担任"审查员"。这个模型会看200帧均匀采样的画面，思考这段视频是否具备清晰的因果进展（比如先放材料、再烹饪、再出锅）、视觉状态是否有明显变化、事件之间是否有逻辑连贯性、是否存在明确的时间标志。如果这段视频是循环重复的动作、画面太相似以至于顺序无法判断、或者各片段之间缺乏内在联系，就会被标记为不合格。

整个审查过程要求模型先在特定标签内写下推理过程，最后输出"是"或"否"的判定，只有两者都通过才算合格。

从实际数据来看，这条流水线的淘汰率相当高。研究团队从三个来源共收集了约49619个原始视频样本，经过第一阶段信号筛选，剩下约9046个；再经过第二阶段语义筛选，最终只保留了8220个高质量样本，淘汰率超过83%。这8220个样本被称为OmniJigsaw-8K数据集，其中8156个用于训练，64个用于验证。

七、奖惩机制：不只是答对就给糖，必须全部答对才能吃大餐

训练AI的过程需要设计合理的奖惩机制，研究团队在这方面也做了细致的考量。

基本奖励由两部分组成。第一部分是"位置准确率"：AI给出的每个片段位置，如果与正确位置吻合，就得一分，6个片段满分6分，取平均值。第二部分是"邻接准确率"：检查AI给出的顺序中，相邻两个片段是否也和正确顺序中相邻的两个片段一致。这一指标的价值在于，即使整体排序不完全正确，也能鼓励AI识别出局部的正确关系，体现部分推理成功。两部分各占50%权重。

除此之外，还有格式奖励：如果AI按照要求的格式（先写思考过程，再写最终答案）来回答，就额外加0.2分，这是鼓励AI进行深度推理而非直接猜答案。还有重复惩罚：如果AI在思考过程中不断重复相同的文字（一段20字以上的内容重复出现超过3次），就扣0.5分，防止它在不知所措时靠"水字数"来凑答案。

最精妙的设计是一个"准确率折扣因子"。这个因子的规则是：只有当AI把6个片段全部排对时，才能拿到全额的位置和邻接奖励；只要有一个片段排错，这两项奖励就会打折到原来的20%。

这个设计背后的逻辑非常有趣：在强化学习中，AI通常会尝试找到"代价最小的成功路径"。如果排对5个、排错1个也能得到不错的奖励，AI就可能满足于这种"差不多就行"的状态，不再努力追求完美答案。折扣因子人为地放大了"完全正确"和"差一点"之间的差距，让AI感受到：差一点点和差很多在奖励上没有本质区别，只有全对才是真正的成功。实验结果表明，加入这个折扣因子后，AI在训练过程中持续探索、持续进步，而去掉折扣因子的对照组则很快陷入停滞。

八、15个测试场地，全面检验AI的视听理解能力

研究团队用15个不同的标准测试集来评估OmniJigsaw训练出来的AI能力，涵盖视频理解、音频理解和视听协同推理三大类。

在视频理解方面，研究团队使用了8个测试集，涵盖从基础时间感知到高层认知推理的各个维度。AoTBench专门测试AI对"时间箭头"的感知，也就是能否判断事件发生的先后顺序；TempCompass和TUNA-Bench测试AI对视频内容细节的细粒度理解；Video-Holmes和Video-TT则考验更高层次的推理能力，需要AI像侦探一样从视频中搜集线索来回答复杂问题；MLVU、MLVU-Test和Video-MME则关注长视频的全局理解和多任务综合表现。

基准模型是Qwen3-Omni-30B-A3B-Instruct，这是一个已经相当强大的多模态大模型。经过OmniJigsaw的CMM策略训练之后，它在MLVU-Test上提升了4.38分，在AoTBench上提升了4.02分，在Video-TT上提升了2.70分，在TUNA-Bench上提升了2.72分，在几乎所有视频测试集上都有明显提升。

在音频理解方面，测试集包括MMAU-Pro（综合听觉理解）、MMAU-test-mini（层次化推理）、MMSU（细粒度感知）和MMAR（需要深度推理的音频场景）。CMM策略在MMAR上带来了2.50分的提升，在MMAU-Pro上提升了1.98分。值得一提的是，CMM策略下训练出来的AI，在音频理解上的表现甚至超过了只靠音频片段训练的"纯音频拼图"版本，说明视觉信息的融合确实帮助AI更好地理解了声音。

在视听协同推理方面，测试集包括DailyOmni（测试视听时间对齐）、IntentBench（测试行为和意图推理）和OmniVideoBench（需要同时利用视觉和音频线索才能回答的问题）。CMM策略在OmniVideoBench上提升了1.70分，在IntentBench上提升了1.49分，在DailyOmni上提升了1.17分，全面验证了跨模态协同推理能力的提升。

研究还专门比较了有音频和无音频两种评测模式下的表现，发现OmniJigsaw在两种情况下都有稳定提升，说明它不只是学会了利用音频信息，而是真正提升了底层的推理能力。

九、当你给AI"更多信息"，它反而学得更差

研究过程中一个反直觉的发现值得单独来说。研究团队专门比较了CMM、JMI（全信息联合训练）以及只用视频或只用音频的单模态训练这四种策略，发现了一个非常有趣的规律。

单模态的视频拼图训练，能有效提升AI的视频理解能力；单模态的音频拼图训练，能有效提升AI的音频理解能力——这都符合预期。但是，JMI（同时提供视频和音频的全信息训练）却在视频理解和音频理解两方面都比对应的单模态训练更差，而不是更好。

从训练过程的奖励曲线来看，JMI策略下AI的任务完成率最高，说明它确实能答出更多题。但正因为如此，它没有动力深入分析每个片段的内容——有一条容易走的路，它就走那条路。训练过程中它的推理记录里甚至出现了"全程只依赖语言线索"这样的表述，说明它在完全忽视视觉信息。

CMM策略恰好反过来。因为不同片段的模态被随机遮掉，AI每次都不知道下一个片段能给它什么信息，必须认真对待每一个有效的信息来源，才能把六个片段的顺序拼出来。这种"信息不完整"的压力，反而逼出了更深度的学习。

这个发现对AI训练领域来说很有启发意义：给模型更多信息，不一定会带来更好的学习效果；有时候，策略性地限制信息、制造适当的信息缺口，反而能逼迫模型发展出更强的能力。

十、定性分析：从AI的"思考过程"里，看见真正的理解

研究团队还专门比较了CMM和JMI两种策略训练后AI在答题时的思考过程，发现了明显的质量差异。

JMI策略训练出来的AI，在分析一段烹饪教学视频时，它的思考记录里出现了"全程完全只依赖语言线索、没有任何视觉分析"这样的表述，最终给出了错误答案。这说明它在处理画面内容时走了捷径，没有真正融合视觉信息。

CMM策略训练出来的AI，在处理同一段视频时，它会分别描述每个片段的视觉内容（比如"第4片展示了最终清理干净的鱼排，画面非常清晰，展示了成品"）和音频内容（比如"第5片的男人正在直接对着镜头讲话，音频带来了与即时切割动作无直接关联的新信息，音频是这个片段的核心"），然后把这些分析综合起来，按照"准备→操作→精细处理→完成→讲解技巧"的逻辑推导出正确顺序，最终给出了正确答案。

这个对比清楚地展示了两种训练策略在培养AI能力上的本质差异：一个只是学会了"猜题技巧"，另一个学会了"真正理解视频"。

说到底，OmniJigsaw这项研究的核心贡献在于：它找到了一种几乎不需要人类标注就能大规模训练AI跨模态理解能力的方法。通过一个看似简单的拼图游戏，配上精心设计的模态遮蔽策略、严格的数据筛选流水线和合理的奖惩机制，它让AI在同时拥有"眼睛"和"耳朵"的情况下，真正学会了把两者结合起来用，而不是偷懒只靠其中一个。

这对我们来说意味着什么？未来的视频助手、会议总结工具、教育视频分析系统，都可能因为这类技术而变得更聪明——不只是听懂你说了什么，也不只是看懂画面里发生了什么，而是真正像人一样同时理解声音和画面之间的关系，然后给出更准确、更有洞察的分析。

当然，研究团队也坦诚地指出了几个局限：这项研究只在一个基础模型上做了实验，能否推广到不同规模的模型还需要验证；数据筛选流程是在训练前一次性完成的，无法根据AI当前的能力水平动态调整难度；视频片段的划分方式还比较简单，都是等长切割，更复杂的切割策略可能带来更好的效果；奖励机制目前只关注排序是否正确，如果能加入对推理质量的评价，效果可能会进一步提升。

有兴趣深入了解这项研究全部细节的读者，可以通过arXiv编号2604.08209查询完整论文。

Q&A

Q1：OmniJigsaw训练出来的AI，在日常生活里能有什么具体用处？

A：经过OmniJigsaw方法训练的AI，在理解视频内容方面明显更准确。比如，用它来总结一段会议录像时，它不只会转录说话内容，还能结合画面中人物的动作、展示的图表来理解会议的实际进展；分析一段教学视频时，它能同时理解画面里的操作步骤和讲解音频，给出更完整的内容描述。任何需要同时看画面和听声音才能真正理解的场景，都能从中受益。

Q2：OmniJigsaw的"双模态捷径效应"是怎么发现的，又是怎么解决的？

A：研究团队最初直接把完整的视频（同时含画面和声音）用来训练AI做拼图排序，结果发现AI的表现反而不如只提供画面或只提供声音的版本。通过分析AI的思考记录，他们发现AI在两种信息都有的情况下，会选择更容易分析的那个模态来解题，完全忽视另一个。解决方案是CMM策略：对每个视频片段单独决定保留哪种模态的信息，强制AI在不同片段之间切换使用视觉和听觉，没有"走捷径"的机会。

Q3：OmniJigsaw数据筛选流水线为什么要淘汰掉83%以上的原始视频？

A：因为拼图游戏本身必须是"可解的"，才有训练价值。如果视频几乎没有变化（比如静态画面、单调噪声），打乱顺序后AI根本无法判断哪段在前、哪段在后，这种训练样本不只没有价值，还会给AI错误的信号。第一阶段通过信号检测快速排除静态视频和音频质量差的样本，第二阶段用语义模型判断视频是否有清晰的时间因果逻辑和状态变化。只有同时通过两关的视频，才能保证AI在训练时面对的是真正"值得拼"的拼图。