マルチモーダルRAGとは?
読み方: マルチモーダルラグ
30秒まとめ
テキストだけでなく画像・表・グラフも検索・理解して回答するRAGの進化形。
マルチモーダルRAGの意味・定義
マルチモーダルRAG(Multimodal Retrieval-Augmented Generation)は、従来のテキストベースのRAGを拡張し、画像、表、グラフ、図面、PDF内のレイアウトなど複数のモーダリティを検索対象として統合的に理解・回答する技術です。例えば、技術マニュアルの図面を参照しながら修理手順を説明したり、財務レポートのグラフデータに基づいて分析を行ったりすることが可能です。CLIPやSigLIPなどのマルチモーダルエンベディングモデルを使い、画像とテキストを同一のベクトル空間に埋め込むことで実現されます。企業のドキュメント管理やカスタマーサポートで注目されています。