CLIP(コントラスティブ言語画像事前学習)とは?

読み方: クリップ

30秒まとめ

テキストと画像の対応関係を学習したOpenAIのマルチモーダルAIモデル。画像検索や画像生成の基盤技術。

CLIP(コントラスティブ言語画像事前学習)の意味・定義

CLIP(Contrastive Language-Image Pre-training)は、OpenAIが2021年に発表したマルチモーダルAIモデルです。インターネット上の4億組のテキストと画像のペアから、テキストと画像の意味的な対応関係を学習しています。テキストの説明と最も一致する画像を選択したり、画像の内容をテキストで分類したりする能力を持ちます。Stable DiffusionやDALL-Eなどの画像生成AIのテキスト理解部分にCLIPの技術が活用されており、プロンプトから適切な画像を生成するための基盤となっています。ゼロショット分類(学習していないカテゴリの分類)が可能な点も画期的です。

関連するAIツール

関連する用語

運営者が開発したAIマーケティングツール