マルチモーダルRAGとは?
読み方: マルチモーダルラグ
30秒まとめ
テキストだけでなく画像・表・図なども検索・活用して回答を生成する次世代RAG技術。
マルチモーダルRAGの意味・定義
マルチモーダルRAG(Multimodal RAG)は、従来のテキストベースのRAG(検索拡張生成)を拡張し、画像、表、グラフ、図、PDF、音声などの多様な形式のデータを検索・取得してLLMの回答生成に活用する次世代技術です。例えば、技術マニュアルの図解や会議のスライド資料から関連する画像を検索し、テキスト情報と併せてマルチモーダルLLM(GPT-4o、Gemini、Claude等)に入力することで、より正確で文脈豊かな回答を生成できます。企業の社内文書には図表やPDFが多く含まれるため、実用的なRAGシステムにはマルチモーダル対応が不可欠です。LangChainやDifyなどのフレームワークがマルチモーダルRAGの構築をサポートしています。