阿里开源全模态模型！能识别喜怒哀乐，还给出详细推理过程

智东西

作者 | 程茜

编辑 | 心缘

智东西3月12日报道，昨日，阿里通义实验室开源R1-Omni模型——业界首个将具有可验证奖励的强化学习（RLVR）应用于全能多模态大语言模型。

研究人员利用RLVR对开源Omni模型HumanOmni-0.5B进行优化，在推理能力、情感识别准确性和泛化能力三个关键方面显著提高了其性能。

阿里开源全模态模型！能识别喜怒哀乐，还给出详细推理过程

R1-Omni能够更清楚地理解视觉和听觉信息如何促进情绪识别，能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。与SFT（传统监督微调）相比，RLVR显著提高了情绪识别任务的性能，在同分布测试集（DFEW和MAFW）上，R1-Omni相较于原始基线模型平均提升超过35%，相较于SFT模型在UAR上的提升超10%。

‌RLVR是DeepSeek项目中的一种强化学习方法，其核心思想是利用验证函数直接评估输出，无需依赖单独的奖励模型‌‌。此前，RLVR研究多聚焦于图像、文本等多模态任务重，尚未涉足更复杂的全模态场景。

展开全文

阿里通义团队选择开源Omni模型HumanOmni-0.5B作为基础模型，目前已经开源了基本模型HumanOmni-0.5B、冷启动模型EMER-SFT、直接在MAFW和DFEW训练集上微调的模型MAFW-DFEW-SFT，以及最终模型R1-Omni。

论文：https://arxiv.org/abs/2503.05379

Github：https://github.com/HumanMLLM/R1-Omni

模型：https://www.modelscope.cn/models/iic/R1-Omni-0.5B

一、充分理解音视频，给出模态信息与特定情绪对应关系

R1-Omni的一大亮点在于其透明性（推理能力）。通过RLVR方法，模型可以充分理解音频信息和视频信息并判断人物的情绪，论文中给出了下面两个示例：

指令：作为情绪识别专家，在整个视频中角色传达的哪种情感对你来说最明显？将思考过程输出到中，将最终的情感输出到中。

HumanOmni-0.5B：恐惧

EMER-SFT：在视频中，一名身穿棕色夹克的男子站在一幅充满活力的壁画前，他的脸上明显流露出愤怒的迹象。他皱起的眉毛和张开的嘴巴表达了他的不满。从他的表情和发声特征可以推断出他正在经历情绪动荡。音频内容提到了“恐惧”和“降低声音”，暗示他正面临紧急情况或在情绪紧张的时刻表现出强烈的情绪。总体而言，分析表明该男子正在经历一种深深的害怕和焦虑感。

MAFW-DFEW-SFT：生气

R1-Omni：在视频中，一个穿着棕色夹克的男人站在一幅充满活力的壁画前。他棕色夹克下面穿着一件粉红色的衬衫，头发又黑又卷。他的面部表情复杂，睁大眼睛，微微张开嘴巴，眉毛上扬，眉头紧皱，透露出惊讶和愤怒。语音识别技术表明，他的声音中包含“你”、“降低你的声音”、“freaking out”等词，表明情绪强烈和激动。总体而言，他表现出困惑、愤怒和兴奋的情绪状态。

指令：作为情绪识别专家，在整个视频中角色传达的哪种情感对你来说最明显？将思考过程输出到中，将最终的情感输出到中。

HumanOmni-0.5B：快乐

EMER-SFT：在视频中，我们看到一名女性在室内环境中，似乎是个人空间或自习室。她戴着红色头带，白色上衣外面套着米色西装外套，头发整齐地扎在后面。她的面部表情流露出些许困惑和惊讶，仿佛遇到了什么意想不到的事情。随着时间的推移，她的情绪似乎平静了下来，但具体原因并没有解释。在音频中，“but”和“it was”之间有一段长时间的沉默，表明了犹豫和不确定。在文本中，副标题写道：“但这很有趣。这句话可能表达了这个人的困惑和惊讶。根据女子略带困惑和惊讶表情的视频线索，以及她整体的外表和面部表情呈现出轻微的困惑和惊讶，我们可以推断出这句话可能带有犹豫或不定的语气。此外，描述“but”和“it was”之间长时间沉默的音频线索也表明了一些犹豫和不确定性。因此，这句话表达了女人对某事的兴趣和好奇，而also则表现出一定程度的犹豫和不确定。

MAFW-DFEW-SFT：快乐

R1-Omni：在视频的开场场景中，我们看到一个女人微微闭着眼睛，嘴巴慢慢张开，仿佛她正在预示。她的面部表情看起来有些喜悦，这可能表明她在那一刻正在经历一些愉快或有趣的情况。在音频中，句子之间没有停顿，它们连续流动，语气轻盈欢快。结合文字内容，可以感觉到角色处于非常快乐和积极的情绪状态。在文本中，副标题写道：“这很有趣。这句话可能表达了女人对某事或某人的满意和好奇。根据视频线索中女子所表现出的笑声和喜悦的表情，以及音频线索中对连续流淌、轻盈欢快的语气的描述，我们可以推断出这句话表达了女子对某事的兴趣和好奇。这句话中的喜悦与幸福和积极的整体表现是一致的。

二、推理、情感识别、泛化能力提升，相较原始基线模型平均提升超35%

研究人员利用RLVR对Omni模型进行优化后，模型在推理能力、情感识别准确性和泛化能力三个关键方面提高了性能。

首先，最初的HumanOmni-0.5B和MAFW-DFEW-SFT模型表现出有限的推理能力。EMER-SFT的推理过程连贯性相对较差，容易产生幻觉。例如，在MAFW和DFEW数据集上进行测试时，R1-Omni通过提供更连贯、更准确和可解释的推理过程，始终优于这些基线。

其次，为了定量评估R1-Omni的理解能力，研究人员将其性能与主要由电影剪辑组成的MAFW和DFEW数据集上的其他模型进行了比较。用于评估的指标是未加权平均召回率（UAR）和加权平均召回率（WAR），它们衡量模型对不同类别的情绪进行准确分类的能力。

在此设置中，模型没有提供预定义的情感类别，而是直接从输入数据生成情感标签。

实验结果显示，在同分布测试集（DFEW和MAFW）上，R1-Omni相较于原始基线模型平均提升超过35%，相较于SFT模型在UAR上的提升高达10%以上。在不同分布测试集（RAVDESS）上，R1-Omni在WAR和UAR均提升超过13%。

阿里开源全模态模型！能识别喜怒哀乐，还给出详细推理过程

更直观的比较如下：

阿里开源全模态模型！能识别喜怒哀乐，还给出详细推理过程

最后是R1-Omni的泛化能力，研究人员在RAVDESS数据集上进行实验，该数据集用作分布外（OOD）测试集，RAVDESS数据集的特点是专业演员以中性的北美口音说出词汇匹配的陈述。数据分布的这种显著差异使RAVDESS成为评估模型泛化到看不见场景的能力的理想基准。

三、冷启动+RLVR训练阶段，提升模型情绪识别准确度

模型训练包括两个阶段。

第一个是冷启动阶段，为了保证RLVR阶段训练的平稳性，该团队使用一个组合数据集进行微调，使其初步掌握多模态情感识别任务中的推理能力。该组合数据集是由580条视频数据组成的组合数据集，其中包括来自Explainable Multimodal Emotion Reasoning（EMER）数据集的232条样本，以及来自HumanOmni数据集的348条样本。

这一阶段确保了模型在进入RLVR阶段前已具备一定基础能力，从而提升后续训练的效率与稳定性。

冷启动阶段使用的EMER数据的具体格式如下所示。

阿里开源全模态模型！能识别喜怒哀乐，还给出详细推理过程

第二个是RLVR阶段，实现推理与泛化能力双重提升，这一训练过程旨在优化HumanOmni-0.5B使用包括视频和音频数据的多模态输入进行情绪识别任务。

基于冷启动阶段初始化的模型，通过RLVR的方式训练，同时利用视频和音频的多模态数据优化情感识别任务。该阶段通过强化学习与可验证奖励机制，进一步优化模型的推理能力和泛化性能。

RLVR的第一个关键组件是策略模型（policy model），该模型处理由视频帧和相应音频流组成的多模态输入数据，并生成一组候选响应。每个响应都附带详细的推理，展示了模型如何整合视觉和听觉信息从而得出预测的详细过程。

第二个关键组件是奖励函数，策略模型生成的这些候选响应使用可验证的奖励函数（reward function）进行评估。RLVR训练框架中用到的奖励函数受DeepSeek-R1的启发，将奖励分成了两个部分，精确率奖励（accuracy reward）和格式奖励（format reward），这两部分共同形成最终的奖励R：

准确值奖励的计算方式如下：

通过联合两部分奖励，该奖励函数不仅鼓励模型生成正确的预测，同时保证输出是结构化的，并且和其预设格式一致。

实验表明，RLVR不仅让音频和视频信息的作用更加透明，还显著提升了模型在情绪识别任务中的关键指标。

四、仍有局限，字幕识别不准、幻觉、语调线索利用率低

R1-Omni仍存在一些需要进一步研究的局限性，论文中提到了三个具有代表性的示例：

第一个例子中，尽管模型产生了正确的情绪预测，但其字幕识别并不准确，解决这一限制需要集成更强大的字幕处理技术，例如对专业数据集进行微调或整合高级自然语言理解模型。

阿里开源全模态模型！能识别喜怒哀乐，还给出详细推理过程

第二个示例演示了一个常见的问题幻觉，模型生成的推理输出不基于视频的实际内容。例如，“画外音揭示了她中立的最初反应，随着时间的推移逐渐变成轻微的兴奋和愤怒”这句话与视频的实际情绪轨迹不一致。这种捏造的推理导致模型错误地将情绪预测为惊喜。

阿里开源全模态模型！能识别喜怒哀乐，还给出详细推理过程

第三个示例强调了该模型充分利用音频线索（如语气和语调）的能力有限，而音频线索对于准确的情绪识别至关重要。尽管模型能够通过整合音频和视频信息来推理情绪，但在某些情况下，音频特征的使用似乎不如使用视觉线索彻底或有效。在这个特定实例中，角色的声音传递提供了强烈的情感信号，但该模型未能将这些细微差别充分纳入其推理过程。

阿里开源全模态模型！能识别喜怒哀乐，还给出详细推理过程