Alibaba Groupが開発したAIモデル「R1-Omni」は、人間の動きと音声を解析し、感情を認識する能力を備えています。本モデルは、GitHub リポジトリ(HumanMLLM/R1-Omni) で公開されており、研究コミュニティによる再現・拡張が可能です。このようにオープンソースコミュニティとして提供されることで、感情認識技術全体のさらなる発展が期待されています。
・R1-Omni とは何か
Reinforcement Learning with Verifiable Reward(RLVR) を採用したオムニマルチモーダル大規模言語モデルで、映像と音声を同時に入力として扱い、感情認識タスクを実行します。RLVR はモデルに正答に対する明確な報酬を与え、従来の監督学習(SFT)を越える性能向上を実現します。論文では、R1-Omni に RLVR を適用することで、理由付け(reasoning)、感情認識精度、そして汎化能力(特に訓練外データに対する強さ)が大きく向上したことを示しており、視覚・音声の寄与を明確に分析する能力も示されています。 論文:https://arxiv.org/html/2503.05379v1
・一般的な応用可能性
映像中の表情や身体動作、声の抑揚・音調などを統合的に解析することで、人物の感情状態をより深く理解し、例えばヒューマンコンピュータインタラクション(HCI)、エンターテイメントコンテンツ解析、社会心理学研究などへの応用が期待されています。