Vision Language Model(VLM)とは?

読み方: ビジョンランゲージモデル

30秒まとめ

画像を理解しテキストで応答できるAIモデル。画像認識と言語理解を統合。

Vision Language Model(VLM)の意味・定義

Vision Language Model(VLM、視覚言語モデル)は、画像とテキストの両方を入力として受け取り、画像の内容を理解した上でテキストで応答できるAIモデルです。GPT-4V(Vision)、Claude 3 Vision、Gemini Pro Vision、LLaVAなどが代表的です。写真の内容説明、グラフやチャートの分析、手書き文字の認識(OCR)、UI/UXデザインの評価、医療画像の解析、製品検品など、従来のテキスト専用LLMでは不可能だったタスクに対応します。マルチモーダルAIの中核技術であり、画像エンコーダー(CLIP等)とLLMを組み合わせたアーキテクチャが一般的です。

関連するAIツール

関連する用語

運営者が開発したAIマーケティングツール